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内 容 简 介 


本 书 为 数据 挖掘 入 门 级 教材 ， 共 分 8 章 ， 主 要 内 容 分 为 三 个 专题 : 技术 、 数 据 和 评估 。 技 术 专 题 包括 
决策 树 技术 、K-means 算法 、 关 联 分 析 技 术 、 神 经 网 络 技术 、 回 归 分 析 技 术 、 贝 叶 斯 分 析 、 凝 聚 聚 类 、 概 
念 分 层 聚 类 、 混 合 模型 聚 类 技术 的 EM 算法 、 时 间 序 列 分 析 和 基于 Web 的 数据 挖掘 等 常用 的 机 器 学 习 方 
法 和 统计 技术 。 数 据 专题 包括 数据 库 中 的 知识 发 现 处 理 模型 和 数据 仓库 及 OLAP 技术 。 评估 专题 包括 利用 
检验 集 分 类 正确 率 和 混淆 矩阵 ， 并 结合 检验 集 置信 区 间 评 估 有 指导 学 习 模型 ， 使 用 无 指导 聚 类 技术 评估 有 
指导 模型 ， 利 用 Lift 和 假设 检验 比较 两 个 有 指导 学 习 模型 ， 使 用 MS Excel 2010 和 经 典 的 假设 检验 模型 评 
估 属 性 ， 使 用 簇 质量 度量 方法 和 有 指导 学 习 技术 评估 无 指导 聚 类 模型 。 

本 书 秉 承 教材 风格 ， 强 调 广度 讲解 。 注 重 成 熟 模型 和 开源 工具 的 使 用 ， 以 提高 学 习 者 的 应 用 能 力 为 目 
标 ; 注重 结合 实例 和 实验 ， 加 强 基本 概念 和 原理 的 理解 和 运用 ; 注重 实例 的 趣味 性 和 生活 性 ， 提 高 学 习 者 
学 习 的 积极 性 。 使 用 章 后 练习 、 计 算 和 实验 作业 巩固 和 检验 所 学 内 容 ; 使 用 词汇 表 附 录 ， 解 释 和 规范 数据 
挖掘 学 科 专业 术语 ;使 用 适合 教学 的 简单 易 用 开源 的 Weka 和 通用 的 MS Excel 软件 工具 实施 数据 挖掘 验 
证 和 体验 数据 挖掘 的 精妙 。 

本 书 可 作为 普通 高 等 院 校 计算 机 科学 、 信息 科 学 、 数学 和 统计 学 专业 的 入 门 教材 , 也 可 作为 如 经 济 学 、 
管理 学 、 档 案 学 等 对 数据 管理 、 数 据 分 析 与 数据 挖掘 有 教学 需求 的 其 他 相关 专业 的 基础 教材 。 同 时 ， 对 数 
Lei 致力 于 相关 方面 的 研究 和 应 用 的 其 他 读者 ， 也 可 以 从 本 书 中 获取 基本 的 指导 和 


本 书 配 有 教学 幻灯 片 、 大 部 分 章 后 习题 和 实验 的 参考 答案 以 及 课程 大 纲 。 
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一 人 一 


前 言 


未 来 学 家 约翰 。 奈 斯 比特 (John Naisbitt) 惊 呼 ，“ 人 类 正 被 数据 淹没 ， 却 饥 渴 于 信息 。” 
从 浩瀚 无 际 的 数据 海洋 中 发 现 潜在 的 、 有 价值 的 信息 ， 是 这 个 大 数据 时 代 的 一 个 标志 性 
亚 相 : 

数据 挖掘 (Data Mining) 是 利用 一 种 或 多 种 计算 机 学 习 技术 ， 从 数据 中 自动 分 析 并 提取 
信息 的 处 理 过 程 ， 其 目的 是 发 现 数据 中 潜在 的 和 有 价值 的 人 信息、 知识、 规律、 联系、 模式 ， 
从 而 为 解释 当前 行为 和 预测 未 来 结果 提供 支持 。 数 据 挖掘 一 般 使 用 机 器 学 习 、 统 计 学 、 联 
机 分 析 处 理 、 专 家 系统 和 模式 识别 等 多 种 方法 来 实现 ， 是 一 门 交叉 学 科 ,， 涉及 数据 库 技术 、 
人 工 智能 技术 、 统 计 学 方法 、 可 视 化 技术 、 并 行 计算 等 。 数 据 挖掘 是 一 种 商业 智能 信息 处 
理 技术 ， 其 围绕 商业 目标 ， 对 大 量 商业 数据 进行 抽取 、 转 换 、 分 析 和 处 理 ， 从 中 提取 辅助 
商业 决策 的 关键 性 数据 ， 揭 示 隐 藏 的 、 未 知 的 或 验证 已 知 的 规律 性 ， 是 一 种 深层 次 的 商业 
数据 分 析 方 法 。 

本 书 作为 一 本 数据 挖掘 的 入 门 级 教材 ， 专 注 于 数据 挖掘 的 基本 概念 、 基 本 原理 和 基本 
技术 的 介绍 和 实践 应 用 。 全 书 围绕 知识 发 现 过 程 中 的 数据 专题 、 技 术 专 题 和 评估 专题 展开 
包含 大 量 实例 和 实验 。 实 验 采 用 Weka 开源 数据 挖掘 工具 和 MS Excel 2010， 两 者 作为 教学 
软件 ， 具 有 很 好 的 通用 性 和 易学 易 用 性 。 本 书 最 后 附 有 词汇 表 和 数据 挖掘 数据 集 ， 包 括 了 
书 中 涉及 的 数据 挖掘 的 最 基本 词汇 、 例 子 及 实验 所 用 数据 集 。 其 中 数据 集 有 来 自 UCI 的 共 
享 数据 集 ， 也 有 为 了 举例 和 实验 而 设计 的 假想 数据 集 。 

本 书 分 为 8 章 和 两 个 附录 ， 其 中 戴 红 编写 了 8 章 中 的 大 部 分 内 容 ， 常 子 冠 和 于 宁 编写 
了 附录 A 和 附录 B， 以 及 前 8 章 的 部 分 内 容 。 

本 书目 标 

本 书 希 望 帮助 读者 达到 以 下 学 习 目 标 。 

@ 了 解数 据 挖掘 的 技术 定义 和 商业 定义 、 作 用 和 应 用 领域 。 

@ 了 解数 据 挖掘 与 知识 发 现 、 数 据 查 询 、 专 家 系统 的 关系 。 

e@ ”掌握 数据 挖掘 和 知识 发 现 的 处 理 过 程 。 

@ 掌握 数据 挖掘 的 基本 技术 和 方法 ， 包 括 有 指导 的 学 习 技 术 一 一 决策 树 技术 、 产 生 
式 规则 、 神 经 网 络 技术 和 统计 分 析 方法 ， 以 及 无 指导 聚 类 技术 和 关联 分 析 方法 。 
掌握 数据 挖掘 的 评估 技术 ， 包 括 数据 评估 和 模型 评估 方法 。 

了 解数 据 仓库 的 设计 目标 和 结构 。 

了 解 联 机 分 析 处 理 (OLAP) 的 目标 和 数据 分 析 方 法 。 

掌握 时 间 序 列 分 析 方 法 ， 了 解 基于 Web 的 数据 挖掘 目标 、 方 法 和 技术 。 

能 够 使 用 Weka 软件 工具 ， 应 用 各 种 数据 挖掘 算法 ， 建 立 分 类 和 聚 类 模型 并 进行 


数据 挖掘 号 论 


关联 分 析 ， 尝 试 解决 实际 问题 。 
@ 能够 使 用 MS Excel 进行 数据 相关 性 分 析 ， 建 立 回归 模型 ， 以 及 使 用 Excel 的 数据 
透视 表 和 数据 透视 图 进行 OLAP 分 析 。 


本 书 读者 


本 书 既 可 作为 计算 机 科学 、 信 息 科 学 、 数 学 和 统计 学 专业 的 入 门 教材 ， 也 可 作为 如 经 
济 学 、 管 理学 、 档 案 学 等 ， 对 数据 管理 、 数 据 分 析 与 数据 挖掘 有 教学 需求 的 其 他 相关 专业 
的 基础 教材 。 同 时 ， 对 数据 挖掘 技术 和 方法 感 兴趣 ， 致 力 于 相关 方面 的 研究 和 应 用 的 其 他 
读者 ， 也 可 以 从 本 书 中 获取 基本 的 指导 和 体验 。 


本 书 特点 


本 书 强 调 基本 概念 、 基 本 原理 、 基 本 技术 的 广度 讲解 。 注 重 成 熟 模型 和 开源 工具 的 介 
绍 和 使 用 ;注重 对 数据 挖掘 经 典 算法 过 程 的 可 理解 性 描述 ， 而 非 聚 焦 细 节 的 剖析 ， 以 提高 
授课 学 生 的 应 用 能 力 ; 注重 结合 基础 实用 案例 ， 通 过 案例 加 强 基 本 概念 和 原理 的 理解 和 运 
用 ; 同时 注重 提高 实例 的 趣味 性 和 生活 性 ， 以 提高 学 生 的 学 习 积 极 性 。 

本 书 秉承 教材 风格 ， 使 用 实例 和 实验 来 描述 和 验证 概念 、 原 理 和 技术 ; 使 用 章 后 练习 、 
计算 和 实验 作业 巩固 和 检验 所 学 内 容 ， 使 用 词汇 表 附 录 ， 解 释 和 规范 数据 挖掘 学 科 专业 术 
语 ， 使 用 适合 教学 的 简单 易 用 开源 的 Weka 和 通用 的 MS Excel 软件 工具 实施 数据 挖掘 ， 验 
证 和 体验 数据 挖掘 的 精妙 。 


本 书 内 容 


第 1 章 ， 认识 数据 挖掘 。 主要 是 对 数据 挖掘 作 全 面 的 概述 ,包括 数据 挖掘 的 基本 概念 、 
作用 、 过 程 、 方 法 、 技 术 和 应 用 。 同 时 介绍 了 本 书 使 用 的 开源 数据 挖掘 软件 Weka。 

从 第 2 章 到 第 8 章 ， 可 分 为 三 个 专题 : 技术 专题 、 数 据 专题 和 评估 专题 。 

技术 专题 

第 2 章 基本 数据 挖掘 技术 。 介 绍 有 指导 学 习 技术 中 的 决策 树 算 法 、 无 指导 聚 类 和 
K-means 算法 ， 重 点 讨论 生成 关联 规则 技术 和 针对 不 同 问题 如 何 考虑 选择 不 同 的 数据 挖掘 
技术 和 算法 。 

第 6 章 神经 网 络 技术 。 介 绍 神 经 网 络 的 基本 概念 、 结 构 模 型 、 反 向 传播 学 习 、 自 组 
织 学 习 方法 和 神经 网 络 技术 的 优势 和 缺点 ， 讨 论 神经 网 络 的 输入 和 输出 数据 的 要 求 ， 详 细 
描述 反 向 传播 学 习 算 法 和 自 组 织 学 习 方法 的 一 次 迭代 过 程 ， 并 通过 两 个 实验 ， 介 绍 了 使 用 
Weka 软件 实现 BP 前 馈 神经 网 络 模型 的 过 程 。 

第 7 章 统计 技术 。 介 绍 数据 挖掘 中 几 种 常用 的 统计 技术 ， 包 括 线性 回归 、 非 线性 回 
归 和 树 回 归 ， 贝 叶 斯 分 类 器 ， 聚 类 技术 中 的 凝聚 聚 类 、 概 念 分 层 聚 类 和 混合 模型 聚 类 技术 
的 EM 算法 ， 对 比 了 统计 技术 和 机 器 学 习 方 法 的 不 同 之 处 ， 为 针对 不 同 的 问题 和 数据 情况 
选择 不 同 的 数据 挖掘 技术 提供 参考 。 
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第 8 章 时 间 序列 分 析 和 基于 Web 的 挖掘 。 介绍 如 何 使 用 神经 网 络 技术 和 线性 回归 方 
法 建立 预测 模型 ， 解 决 时 间 序 列 预测 问题 ， 使 用 数据 挖掘 对 Web 站 点 进行 自动 化 评估 和 提 
供 个 性 化 服务 ,并 就 Web 站 点 的 自 适 应 调整 和 改善 进行 了 简单 阐述 ， 同 时 针对 多 模型 应 用 
中 的 两 种 著名 方法 装 袋 和 推进 进行 了 简单 介绍 。 

数据 专题 

第 3 章 ”数据库 中 的 知识 发 现 。 介 绍 了 知识 发 现 的 基本 概念 、 基 本 过 程 和 典型 模型 
重点 剖析 知识 发 现 过 程 中 的 每 个 步骤 的 任务 和 方法 ， 并 通过 一 个 案例 说 明知 识 发 现 的 整 
个 过 程 。 

第 4 章 数据 仓库 。 概 括 性 地 阐述 了 数据 库 和 数据 仓库 的 基本 概念 和 特点 ， 介 绍 了 数 
据 仓库 模 型 的 设计 ， 重 点 讨论 最 常用 的 星 型 模型 、 雪 花 模 型 和 星座 模型 的 设计 ， 并 解释 了 
数据 集 市 和 决策 支持 系统 的 基本 概念 。 通 过 一 个 实验 ， 描 述 了 从 决策 支持 的 角度 ， 对 数据 
仓库 中 的 数据 进行 多 维 分 析 的 方法 。 最 后 介绍 了 利用 MS Excel 数据 透视 表 和 数据 透视 图 建 
立 多 维 数据 分 析 模 型 的 方法 。 

评估 专题 

第 5 章 评估 技术 。 概 述 了 数据 挖掘 过 程 中 评估 的 内 容 和 工具 ， 介 绍 了 具有 分 类 输出 
的 有 指导 学 习 模型 的 最 基本 评估 工具 一 检验 集 分 类 正确 率 和 混淆 矩阵、 数值 型 输出 模型 
的 评估 、 检 验 置信 区 间 的 计算 以 及 无 指导 聚 类 技术 对 于 有 指导 学 习 模 型 的 评估 作用 、 有 指 
导 学 习 模 型 的 比较 方法 ， 重 点 讨论 了 利用 Lif 和 假设 检验 对 两 个 有 指导 学 习 模 型 的 性 能 进 
行 比较 。 同时， 讨论 了 属性 评估 ， 使 用 MS Excel 的 函数 和 散 点 图 进行 属性 相关 性 分 析 ， 以 
及 在 属性 选择 中 ， 如 何 通 过 应 用 经 典 的 假设 检验 模型 来 确定 数值 属性 的 重要 性 。 本 章 最 后 
给 出 了 两 种 无 指导 聚 类 模型 的 评估 方法 。 

附录 本 书 有 两 个 附录 : 附录 A 为 词汇 表 ， 包 含 了 各 章 以 及 Weka 软件 中 出 现 的 主要 
词汇 和 关键 术语 ;附录 B 为 本 书 各 章 实例 、 实 验 、 章 后 习题 中 涉及 的 数据 集 的 相关 描述 ， 
有 来 自 UCI 的 网 络 共享 数据 集 ， 也 有 假想 的 数据 集 。 


本 书 资源 


@ 教学 幻灯 片 ， 包 括 所 有 章节 的 PowerPoint 教学 幻灯 片 。 
习题 答案 ， 包 括 大 部 分 章 后 习题 和 实验 的 参考 答案 。 
课程 大 岗 ， 包 括 学 时 建议 和 各 学 时 的 授课 内 容 、 讨 论 议题 、 习 题 和 实验 选择 以 及 
阶段 测验 的 建议 。 
推荐 资源 如 下 。 
(1) 全 球 最 大 的 数据 挖掘 信息 网 站 一 一 http://www.kdnuggets.com/ 。Data Mining 
Community’s Top Resource for Data Mining and Analytics Software, Jobs, Consulting, Courses, 


and more。 


(2) 机 器 学 习 领 域 的 UCI 数据 集 一 一 http://archive.ics.uciedu/ml/。UCI 数据 库 是 加 州 大 
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学 欧文 分 校 (University of California Irvine) 提 出 的 用 于 机 器 学 习 的 数据 库 ， 目 前 拥有 200 多 
个 数据 集 ， 并 且 数 目 还 在 不 断 增加 。UCI 数据 集 在 数据 挖掘 领域 被 认为 是 标准 测试 数 
据 集 。 

欢迎 读者 来 函 ， 对 书 中 不 妥 之 处 批评 、 指 正 。 联 系 邮 箱 : daihong@buu.edu.cn。 
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第 1 章 认识 数据 挖掘 
本 章 要 点 提示 


千 百 年 来 ， 人 类 总 是 从 自然 界 和 人 类 社会 中 不 断 地 寻找 和 发 现 信息 、 知 识 、 规 律 、 联 
系 和 模式 来 发 展 自己 ， 推 进 人 类 的 进步 。 如 农民 在 耕种 中 寻找 着 庄稼 生长 的 规律 ， 猎 人 在 
动物 活动 行为 中 寻找 猎物 的 生活 习性 ， 教 师 在 教学 中 寻找 着 教学 规律 ， 医 生 在 患者 病例 中 
寻找 疾病 之 间 的 联系 ， 商 人 在 消费 行为 中 寻找 模式 等 。 数 据 挖 据 就 是 在 数据 中 发 现 潜在 的 
和 有 用 的 信息 、 知 识 、 规 律 、 联 系 和 模式 的 过 程 。 

从 本 章 开 始 ， 我 们 将 进入 数据 挖掘 和 知识 发 现 的 神奇 之 旅 。 本 章 为 全 书 的 导入 ， 在 本 
章 中 将 对 数据 挖掘 的 基本 概念 、 作 用 、 过 程 、 方 法 、 技 术 和 应 用 作 全 面 的 概述 。 本 章 1.1 
节 给 出 了 数据 挖掘 的 定义 。1.2 节 将 对 与 数据 挖 气 有 着 密切 关系 的 机 器 学 习 进 行 探讨 。1.3 
节 介 绍 了 数据 查询 与 数据 挖掘 之 间 的 关系 。1.4 节 介 绍 了 专家 系统 和 数据 挖 气 方 法 解决 问题 
的 不 同 。1.5 节 描 述 了 数据 挖 气 的 过 程 。1.6 节 对 数据 挖 据 的 作用 进行 了 全 面 阐述 。1.7 节 介 
绍 了 几 种 常见 的 数据 挖 气 方 法 和 技术 。 1.8 节 对 数据 挖 气 的 应 用 领域 和 经 典 案 例 进行 了 简单 
介绍 。1.9 节 介绍 了 本 书 使 用 的 一 种 开源 数据 挖 据 软 件 Weka。 


1.1 数据 挖掘 的 定义 


数据 挖掘 (Data Mining) 是 利用 一 种 或 多 种 计算 机 学 习 技 术 ， 从 数据 中 自动 分 析 并 提取 
信息 的 处 理 过 程 。 数 据 挖掘 的 目的 是 寻找 和 发 现 数据 中 潜在 的 有 价值 的 信息 、 知 识 、 规 律 、 
联系 和 模式 。 数 据 挖掘 与 计算 机 科学 有 关 ， 一 般 使 用 机 器 学 习 、 统 计 学 、 联 机 分 析 处 理 、 
专家 系统 和 模式 识别 等 多 种 方法 来 实现 。 从 学 科 的 角度 上 看 ， 数 据 挖掘 是 一 门 交叉 学 科 ， 
涉及 数据 库 技术 、 人 工 智能 技术 、 统 计 学 、 可 视 化 技术 、 并 行 计算 等 多 种 技术 。 

以 上 是 从 技术 角度 给 出 的 数据 挖掘 定义 。 从 商业 角度 上 来 描述 数据 挖掘 的 定义 为 : 数 
据 挖 掘 是 一 种 商业 智能 信息 处 理 技 术 , 是 围绕 商业 目标 开展 的 ， 对 大 量 商业 数据 进行 抽取 、 
转换 、 分 析 和 处 理 ， 从 中 提取 辅助 商业 决策 的 关键 性 数据 ， 揭 示 隐 藏 的、 未 知 的 或 验证 已 
知 的 规律 性 ， 是 一 种 深层 次 的 商业 数据 分 析 方 法 。 

以 下 是 对 定义 中 的 几 个 概念 进行 的 进一步 解释 。 

(1) 数据 。 数 据 挖 掘 使 用 的 数据 一 般 是 真实 的 、 大 量 的 、 可 能 具有 噪声 的 数据 ， 数 据 
的 质量 很 大 程度 上 影响 着 数据 挖掘 的 质量 。 目 前 随 着 计算 机 硬件 技术 和 数据 库 、 数 据 仓库 
数据 管理 等 软件 技术 的 发 展 ， 计 算 机 能 够 收集 和 分 析 并 处 理 大 量 的 、 结 构 复杂 的 、 异 构 的 
数据 。 同 时 大 量 的 数据 中 ， 可 能 真正 有 价值 的 信息 很 少 ， 数 据 挖 掘 就 是 要 在 这 些 数据 中 发 
现 有 价值 的 信息 。“ 人 类 正 被 数据 淹没 , 却 饥 渴 于 信息 ”一 一 约翰 。 奈 斯 比特 (John Naisbitt, 
未 来 学 家 )。 

(2) 潜在 的 有 价值 的 信息 、 知 识 、 规 律 、 联 系 、 模 式 。 一 般 从 数据 中 发 现 的 不 是 浅 知 
识 (Shallow Knowledge)， 即 不 是 通过 查询 和 搜索 就 能 够 获取 的 信息 ， 而 是 隐 含 的 、 潜 在 的 
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规律 和 模式 。 并 且 发 现 的 知识 是 可 被 用 户 接受 和 理解 的 ， 往 往 可 用 于 解决 某 个 特定 问题 或 
进行 特定 领域 的 决策 支持 。 

(3) 数据 挖掘 与 知识 发 现 的 关系 。 数 据 库 中 的 知识 发 现 Knowledge Discovery in 
Database，KDD) 是 一 个 经 常 与 数据 挖掘 互 换 使 用 的 术语 。KDD 是 一 个 处 理 过 程 和 方法 体 
系 ， 它 包括 目标 定义 、 数 据 准 备 、 数 据 挖掘 和 解释 、 模 型 检验 和 评估 、 模 型 应 用 等 阶段 。 
尽管 在 很 多 场合 下 ， 数 据 挖掘 和 知识 发 现 之 间 的 界限 并 不 明显 ， 看 到 不 加 区 分 地 使 用 ， 但 
严格 来 说 ， 数 据 挖掘 其 实 仅 仅 是 KDD 过 程 中 的 一 个 阶段 。 第 3 章 中 将 详细 讨论 KDD 过 程 
和 方法 。 

除了 知识 发 现 ， 与 数据 挖掘 相关 的 词汇 还 有 机 器 学 习 和 人 工 智 能 、 商 务 智 能 、 模 式 识 
别 、 数 据 查 询 和 数据 分 析 、 决 策 支持 和 专家 系统 等 。 下 面 对 与 数据 挖掘 相关 的 机 器 学 习 、 
数据 查询 和 专家 系统 进行 简单 解释 ， 并 给 出 它们 与 数据 挖掘 之 间 的 关系 。 在 第 4 章 中 对 数 
据 分 析 、 决 策 支 持 作 进一步 的 阐述 。 


12 机 器 学 习 


机 器 学 习 (Machine Learning, ML) 是 模拟 人 类 的 学 习 方 法 来 解决 计算 机 获取 知识 问题 的 
方法 。 通 过 机 器 学 习 ， 可 以 利用 大 量 的 经 验 积累 来 改善 系统 的 性 能 。 机 器 学 习 是 人 工 智能 
(Artificial Intelligence) 的 核心 ， 是 使 计算 机 有 具有 智能 的 根本 途径 ， 在 商业 智能 分 析 等 领域 具 
有 广泛 的 应 用 。 


1.2.1 概念 学 习 


机 器 学 习 是 通过 对 大 量 的 实例 进行 训练 ， 从 中 发 现 经 验 化 规律 的 过 程 。 机 器 学 习 结 果 
的 通常 表现 形式 为 概念 ， 即 机 器 最 擅长 的 是 学 习 概 念 。 概 念 (Concept) 是 具有 某 些 共同 特征 
的 对 象 、 符 号 或 事件 的 集合 。 概 念 可 以 从 三 个 不 同 的 角度 来 看 待 ， 分 别 为 概念 定义 的 传统 
角度 、 概 率 角度 和 样本 角度 。 


1. 传统 角度 


在 传统 角度 (Classical View) 中 ， 所 有 概念 都 有 明确 的 定义 ， 某 个 实例 是 否 属于 一 个 概 
念 ， 需 要 按照 这 个 明确 的 定义 来 确定 。 如 “优秀 学 生 ” 若 使 用 经 典 概念 观点 ， 则 可 定义 为 : 
每 学 期 平均 成 绩 85 分 ( 含 ) 以 上 、 参 加 社会 工作 1 项 及 以 上 的 学 生 。 这 个 定义 中 存在 两 个 条 
件 ， 一 为 平均 成 绩 的 条 件 ， 二 是 参加 社会 工作 情况 。 若 将 平均 成 绩 和 参加 社会 工作 作为 两 
个 属性 ， 三 85 分 和 1 项 作为 属性 的 值 ， 这 个 定义 可 以 写成 如 下 形式 。 

(1) 平均 成 绩 宇 85。 

(2) 承担 社会 工作 三 1。 

传统 概念 定义 中 ， 概 念 的 特征 是 定义 明确 的 ， 不 允许 出 现 模棱两可 的 情况 。 以 上 两 个 
条 件 必 须 同时 满足 ， 这 样 的 学 生 才 是 优秀 学 生 。 


2. 概率 角度 
对 个 别 样本 实例 进行 概括 性 描述 ， 这 些 概括 性 说 明 就 构成 了 概率 角度 (Probabilistic 
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View) 概 念 。 如 “优秀 学 生 ” 的 概率 角度 的 概念 定义 如 下 。 

(1) 一 贯 表现 较 好 、 成 绩优 良 的 学 生 ， 大 多 数 都 是 优秀 学 生 。 

(2) 承担 过 社会 工作 ， 平 均 成 绩 在 80 分 以 上 的 学 生 ，80% 都 是 优秀 学 生 。 

以 上 两 条 是 通过 观察 大 量 “ 优 秀 学 生 ” 实 例 得 出 的 概括 性 描述 。 概 率 的 观点 并 未 给 出 
优秀 学 生 的 确切 定义 ， 只 是 提供 了 优秀 学 生 判定 的 一 个 参考 。 通 过 概率 观点 所 定义 的 概念 ， 
不 能 直接 得 出 判断 结论 。 如 一 个 参加 过 社会 工作 、 平均 成 绩 为 85 分 的 学 生 ， 不 能 肯定 其 就 
是 “优秀 学 生 ”， 他 作为 “优秀 学 生 ” 的 概率 为 80%。 


3. 样本 角度 (Exemplar View) 


样本 角度 (Exemplar View) 概 念 定 义 既 不 是 传统 定义 明确 的 条 件 ， 也 不 是 概括 性 描述 ， 
而 是 将 某 个 概念 中 的 典型 实例 组 成 一 个 集合 ， 使 用 该 集合 来 描述 概念 定义 。 判 断 一 个 新 实 
例 是 否 属于 某 个 概念 分 类 , 就 将 其 与 该 集合 中 的 典型 实例 进行 比较 , 符合 其 中 的 某 个 实例 ， 
它 就 是 这 个 概念 类 中 的 一 员 。 如 “优秀 学 生 ” 的 样本 角度 的 概念 定义 如 下 。 

(1) 承担 过 1 项 社会 工作 ， 平 均 成 绩 85 分 。 

(2) 承担 过 2 项 社会 工作 ， 平 均 成 绩 83 分 。 

(3) 没有 承担 过 社会 工作 ， 平 均 成 绩 90 分 。 

以 上 仅仅 列 出 了 三 个 样本 组 成 的 集合 ， 实 际 中 ， 为 了 更 好 地 覆盖 所 有 概念 类 的 实例 情 
况 ， 样 本 除了 能 够 正确 描述 概念 类 ， 具 有 典型 性 之 外 ， 还 需要 具有 一 定 的 覆盖 度 。 从 样本 
角度 上 ， 是 将 概念 通过 概念 样本 来 表达 ， 并 用 概念 样本 分 类 新 的 实例 。 若 一 名 学 生平 均 成 
绩 为 91 分 ， 若 其 与 该 概念 样本 充分 地 相似 ， 则 可 以 认为 他 是 “优秀 学 生 ”。 

在 机 器 学 习 中 ， 机 器 学 习 工 具 的 不 同 决定 了 所 学 概念 的 不 同 表达 形式 。 一 般 的 概念 结 
构 如 树 、 规 则 、 网 络 和 数学 方程 等 。 其 中 树 结构 和 规则 是 人 类 容易 解释 和 理解 的 概念 形式 ， 
被 称 为 白 盒 子 结构 ， 而 网 络 和 数学 方程 是 人 类 不 容易 解释 和 理解 的 概念 结构 ， 被 称 为 黑 盒 
子 结构 。 


1.2.2 ”归纳 学 习 


机 器 学 习 的 方式 是 基于 归纳 的 学 习 。 归 纳 学 习 (Induction-Based Leaming) 方 法 是 人 类 学 
习 的 最 重要 方式 之 一 。 人 类 通过 对 事物 的 特定 实例 的 观察 ， 对 所 掌握 的 已 有 经 验 材料 的 研 
究 ， 从 归纳 中 获取 和 探索 新 知识 ， 并 以 概念 的 形式 表现 出 来 。 如 小 时 候 ， 我 们 在 认 知 这 个 
世界 时 ， 通 过 各 种 事物 的 典型 实例 ， 如 动物 中 的 老虎 、 狮 子 、 大 象 等 ， 植 物 中 的 松树 、 玫 
瑰 花 、 兰 花草 等 ， 在 大 脑 中 形成 个 别 实例 的 记忆 ， 通 过 大 脑 的 加 工 抽象 出 表达 这 些 事物 的 
典型 特征 (属性 )， 如 外 观 、 形 状 、 颜 色 、 声 音 、 动 作 等 ， 最 终 形成 动物 和 植物 的 概念 分 类 
模型 。 模 型 建立 完成 后 ， 在 对 世界 的 进一步 认 知 过 程 中 ， 就 会 自然 地 使 用 这 些 模型 来 区 分 
具有 相似 特征 的 更 多 的 事物 或 实例 。 在 应 用 概念 分 类 模型 进行 未 知 实例 分 类 的 过 程 中 ， 还 
在 使 用 新 的 实例 进行 模型 的 进一步 修正 ， 这 个 过 程 使 得 我 们 大 脑 中 对 于 事物 的 认识 进一步 
地 准确 和 完整 。 这 种 学 习 就 是 归纳 学 习 。 

以 下 是 几 个 归纳 学 习 的 例子 。 

(1) 通过 分 析 信 用 卡 持 卡 人 的 消费 行为 ， 归 纳 出 他 的 信用 卡 消费 模式 (模型 )。 当 信用 卡 


3 < 


数据 挖掘 号 论 


被 盗 刷 时 ， 信 用 卡 公司 可 以 利用 这 个 消费 模式 (模型 ) 判 断 出 该 消费 行为 是 异常 的 ， 从 而 提 
醒 持 卡 人 该 卡 被 盗用 。 

(2) 零售 商 经 常 通过 分 析 顾 客 的 购买 行为 ， 找 出 行为 中 的 规律 ， 如 经 典 的 啤酒 和 尿布 
案例 ， 归 纳 出 一 般 性 规律 ， 从 而 指导 货架 的 摆 放 和 商品 的 促销 。 

(3) 通过 高 尾 花 的 花 辩 和 花 葛 的 长 度 和 宽度 的 特点 ， 归 纳 出 高 尾 花 的 类 别 ， 用 该 分 类 
模型 来 判断 未 知 种 类 高 尾 花 的 类 别 。 

数据 挖掘 中 使 用 了 大 量 的 机 器 学 习 方法 ， 一 般 分 为 两 大 类 : 有 指导 (监督 ) 的 学 习 和 无 
指导 (监督 ) 的 聚 类 。 有 指导 的 学 习 就 是 上 述 的 基于 归纳 的 学 习 ， 是 通过 对 大 量 已 知 分 类 或 
输出 结果 的 实例 进行 训练 ， 建 立 分 类 或 预测 模型 ， 用 来 分 类 未 知 实例 或 预测 输出 结果 的 未 
来 值 。 


1.2.3 ”有 指导 的 学 习 


归纳 学 习 是 为 了 建立 一 个 用 于 分 类 或 预测 的 模型 ， 而 通过 对 大 量 已 知 分 类 或 输出 结果 
值 的 实例 进行 训练 ， 调 整 分 类 模型 的 结构 ， 达 到 建立 能 够 准确 分 类 或 预测 未 知 的 模型 的 目 
的 。 这 种 基于 归纳 的 概念 学 习 过 程 被 称 为 有 指导 (监督 ) 的 学 习 (Supervised Leaming)。 其 中 ， 
用 于 有 指导 学 习 的 样本 数据 被 称 为 数据 实例 (Instance)， 用 于 ly 实例 被 称 为 训练 实例 
(Training Instance)。 除 此 之 外 ,分 类 模型 建立 完成 后 , 通常 需要 经 过 检验 实例 (Test Instance) 
进行 检验 ， we ee edit 

模型 的 训练 过 程 是 从 个 体 实 例 归纳 出 概念 类 ， 属 于 归纳 学 习 ， 但 利用 分 类 模型 对 未 知 
实例 进行 分 类 判断 的 过 程 则 是 演绎 的 过 程 。 下 面 通过 一 个 例子 来 说 明 有 指导 的 学 习 过 程 。 

【 例 1.1】 给 定 如 表 1.1 所 示 的 数据 集 T， 使 用 有 指导 的 学 习 方 法 建立 分 类 模型 ， 对 
未 知 类 别 的 实例 进行 分 类 。 


表 1.1 感冒 诊断 假想 数据 集 


序号 Increased -lym 本 Group |Cold-type 
淋巴 细胞 升 高 | 白细胞 升 高 | 发 烧 | 起 病 急 退 热 效 果 _ | 群体 发 病 | 感冒 类 型 
1 | Ya 避 lve | vial 
2 | No em ee Bacterial 
3 |Yes Yes Viral 
4 |Yes Viral 
5 | No Bacterial 
6_| No Yes | Yes 2 Bacterial 
7 [no he pe he , vial 
8 |Yes Viral 
| en Yes Viral 
10 | Yes 2 Bacterial 


表 1.1 是 一 个 关于 感冒 类 型 诊断 的 小 型 假想 数据 集 ， 数 据 集 的 格式 为 “属性 - 值 ”格式 


(Attribute-Value Format)， 表 中 第 一 行 显示 了 属性 的 名 称 。 数 据 集 共 有 8 个 属性 ， 前 7 个 属 
性 表达 了 病人 患 感冒 的 临床 症状 ， 分 别 为 Increased-lym( 淋 巴 细 胞 是 否 升 高 )、Leukocytosis( 白 
细胞 是 否 升 高 )、Fever( 是 否 发 烧 )、Acute-onset( 是 否 起 病 急 )、Sore-throat( 是 否 有 咽 痛 症状 )、 
Cooling-effect( 服 用 退烧 药 的 退 热 效 果 如 何 )、Group( 是 否 有 群体 发 病情 况 )。 这 些 属性 在 有 
指导 的 学 习 中 被 称 为 输入 属性 (Input Attribute), 是 用 来 表示 分 类 特征 的 属性 。 第 8 个 属性 为 
Cold-type( 感 冒 类 型 )， 它 有 两 个 取 值 : Viral( 病 毒性 的 ) 和 Bacterial( 细 菌 性 的 )， 是 有 指导 学 
习 中 的 输出 结果 ， 被 称 为 类 或 输出 属性 (Output Attribute)。 

数据 集中 有 10 个 实例 ， 每 个 实例 显示 一 位 感冒 患者 的 症状 和 类 型 。 例 如 ， 第 一 个 实例 
表示 感冒 患者 淋巴 细胞 升 高 、 白 细胞 未 升 高 、 发 烧 、 起 病 急 、 咽 部 不 疼痛 、 使 用 退烧 药 效 
果 较 好 、 有 群体 发 病情 况 ， 最 后 该 患者 被 诊断 为 病毒 性 感冒 。 

机 器 学 习 中 的 有 指导 学 习 方法 和 技术 很 多 ， 常 用 的 有 决策 树 、 产 生 式 规则 、 神 经 网 络 
等 。 下 面 使 用 最 常用 的 决策 树 方法 建立 表 1.1 的 分 类 模型 ， 用 于 对 一 个 未 知 感冒 类 型 的 患 
者 进行 诊断 。 

决策 树 (Decision Tree) 是 一 种 简单 的 、 易 于 解释 和 理解 的 概念 结构 。 决 策 树 是 一 个 倒立 
的 树 ， 树 的 非 叶 子 节点 表示 在 一 个 属性 上 的 分 类 检查 ， 叶 子 节点 表示 决策 判断 的 结果 ， 该 
结果 选择 了 正确 分 类 较 多 实例 的 分 类 。 决 策 树 有 很 多 算法 ， 在 第 2 章 中 将 对 此 进行 详细 介 
绍 ， 这 里 使 用 决策 树 的 经 典 算法 C4.5。 决 策 树 如 图 1.1 所 示 。 


Sore-throat 


Yes No- 


i; Cold Type=Viral 


Unknown 
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Good 
Not good 00 ~ 
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Cold Type=Bacterial Cold Type=Viral Cold Type=Bacterial 
(4 (2/0) (1/0) 


图 1.1 感冒 类 型 诊断 决策 树 

从 这 棵 决策 树 中 得 出 以 下 几 点 结论 。 

(1) 当 患 者 没有 咽 痛 症 状 (Sore-throat=No), 可 以 认为 其 患 有 病毒 性 感冒 (Cold-type=Viral)。 

(2) 当 患 者 有 咽 痛 症状 (Sore-throat=Yes)， 并 且 使 用 了 退烧 药 ， 用 药 效果 不 好 (Cooling- 
effect=Not good)， 则 可 以 判断 其 得 了 细菌 性 感冒 (Cold-type = Bacterial)。 

(3) 当 患 者 有 咽 痛 症状 , 并 且 使 用 了 退烧 药 ， 用 药 效果 较 好 (Cooling-effect = Good)， 则 
可 以 判断 其 得 了 病毒 性 感冒 。 

(4) 当 患 者 有 咽 痛 症状 ， 未 用 退烧 药 (Cooling-effect = Unknown)， 则 可 以 判断 其 得 了 细 
菌 性 感冒 。 

从 决策 树 中 可 以 看 到 ， 决 策 树 中 仅 出 现 了 两 个 输入 属性 : Sore-throat( 是 否 有 咽 痛 症状 ) 
和 Cooling-effect( 服 用 退烧 药 的 退 热 效 果 如 何 ), 其 他 属性 如 Increased-lym( 淋 巴 细 胞 是 否 
高 )、Leukocytosis( 白 细胞 是 否 升 高 )、Fever( 是 否 发 烧 )、Acute-onset( 是 否 起 病 急 )、Group( 是 
否 有 群体 发 病情 况 ) 对 于 诊断 感冒 类 型 没有 起 到 任何 作用 。 因 数据 集 数 据 量 太 少 ， 此 结论 仅 
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供 参 考 。 

决策 树叶 子 节点 中 的 数字 格式 (m/n) 表 示 沿 着 这 条 树 的 路 径 (分 支 ) 达 到 叶子 节点 的 实例 
数 共 m 个 ， 其 中 个 实例 被 分 类 错误 。 例 如 ， 当 患者 没有 咽 痛 症 状 (Sore-throat = No)， 该 
分 支 的 决策 结果 是 认为 患者 患 有 病毒 性 感冒 (Cold-type = Viral)。 该 分 支 的 叶子 节点 中 数字 
为 (3/0)， 表 示 符 合 这 条 分 支 判断 条 件 的 实例 共有 3 条 ， 全 部 被 分 类 为 患 有 病毒 性 感冒 ， 并 
且 与 实际 情况 相 比 ， 全 部 被 分 类 正确 。 而 当 患 者 有 咽 痛 症状 (Sore-throat = Yes)， 并 且 使 用 
了 退烧 药 ， 用 药 效果 不 好 (Cooling-effect = Not good)， 该 分 支 的 决策 结果 为 判断 患者 得 了 细 
菌 性 感冒 (Cold-type = Bacterial)。 该 分 支 的 叶子 节点 中 数字 为 (4/1)， 表 示 符 合 这 条 分 支 判 断 
条 件 的 实例 共有 4 条 ， 全 部 被 分 类 为 患 有 细菌 性 感冒 ， 但 实际 上 ， 其 中 有 一 人 是 患 有 病毒 
性 感冒 的 ， 即 有 一 条 实例 被 分 类 错误 。 

表 1.1 中 的 10 条 实例 作为 训练 数据 用 于 创建 决策 树 模型 ， 这 棵 决策 树 能 够 正确 分 类 这 
10 条 实例 中 的 9 条 ， 分 类 正确 率 达 到 9/10=90%。 但 是 这 个 分 类 正确 率 仅仅 说 明 对 于 训练 
数据 的 分 类 正确 程度 ， 没 有 检验 对 于 未 参与 训练 的 其 他 实例 的 分 类 正确 程度 ， 所 以 还 应 该 
使 用 检验 实例 来 检验 模型 分 类 未 参与 训练 的 未 知 实例 的 分 类 正确 率 ， 从 而 确定 模型 在 后 续 
使 用 中 的 效果 。 检 验 集中 实例 的 分 类 也 是 已 知 的 ， 这 样 才能 对 模型 计算 的 分 类 结果 与 实际 
分 类 结果 进行 比较 ， 计 算出 检验 数据 上 的 分 类 正确 率 ， 这 个 检验 集 分 类 正确 率 将 预示 着 模 
型 未 来 的 性 能 。 

分 类 模型 建立 和 检验 完成 后 ， 就 可 以 实际 投入 使 用 ， 即 用 该 模型 对 未 知 分 类 的 实例 进 
行 分 类 。 表 1.2 给 出 了 两 个 未 知 分 类 的 实例 , 使 用 图 1.1 中 的 决策 树 模型 对 它 他 们 进行 分 类 。 


表 1.2 未 知 分 类 的 数据 实例 


Increased -lym Fever | Acute-onset Em Cold-type 

淋巴 细胞 升 高 | 白细胞 升 高 | 发 烧 起 病 急 咽 痛 退 热 效果 群体 发 病 | 感冒 类 型 

wo | ys Jys| we | No IN | Nm |， 
ys | wo ys| wo | vy lom | x | 


(1) 对 于 第 一 条 实例 ， 患 者 没有 咽 痛 症状 (Sore-throat = No)， 则 可 以 诊断 为 患 有 病毒 性 
感冒 (Cold-type = Viral)。 

(2) 对 于 第 二 条 实例 ， 患 者 有 咽 痛 症状 (Sore-throat = Yes)， 并 且 使 用 了 退烧 药 ， 用 药 效 
果 较 好 (Cooling-effect = Good)， 则 可 以 诊断 为 也 患 有 病毒 性 感冒 (Cold-type = Viral) 。 

决策 树 一 般 都 可 以 被 翻译 为 一 个 产生 式 规则 集合 。 产 生 式 规则 的 格式 为 : 

IF 前 提 条 件 THEN 结论 


前 提 条 件 描述 输入 属性 的 值 ， 结 论说 明 输 出 属性 的 结果 。 将 决策 树 翻译 为 产生 式 规则 
的 方法 是 从 根 节 点 出 发 ， 沿 着 树 的 一 条 路 径 到 叶子 节点 来 创建 规则 。 规 则 的 前 提 条 件 由 这 
条 路 径 中 的 所 有 属性 值 组 成 ， 规 则 的 结论 是 叶子 节点 的 输出 值 。 图 1.1 的 感冒 类 型 诊断 决 
策 树 可 以 翻译 为 以 下 4 条 产生 式 规则 。 

(1) IF Sore-throat = No THEN Cold-type = Viral 

(2) IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral 


(3) IE Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type =Bacterial 
(4) IF Sore-throat =Yes &Cooling-effect=Unknown THENCold-type=Bacterial 


BD 。 


No 


现在 可 以 使 用 产生 式 规 则 对 表 1.2 中 的 未 知 实例 进行 分 类 。 

(1) 对 于 第 一 条 实例 ， 患 者 没有 咽 痛 症状 (Sore-throat = No)， 适 用 第 一 条 规则 ， 则 可 以 
诊断 为 患 有 病毒 性 感冒 (Cold-type = Viral) 。 

(2) 对 于 第 二 条 实例 ， 患 者 有 咽 痛 症状 (Sore-throat = Yes)， 并 且 使 用 了 退烧 药 ， 用 药 效 
果 较 好 (Cooling-effect = Good), 适用 第 二 条 规则 , 则 可 以 诊断 为 也 患 有 病毒 性 感冒 (Cold-type 
= Viral)。 


1.2.4 无 指导 的 聚 类 


无 指导 (监督 ) 聚 类 (Unsupervised Clustering) 是 一 种 无 指导 (无 教师 ) 的 学 习 ， 在 学 习 训练 
之 前 ， 没 有 预先 定义 好 分 类 的 实例 ， 数 据 实例 按照 某 种 相似 性 度量 方法 ， 计 算 实例 之 间 的 
相似 程度 , 将 最 为 相似 的 实例 聚 类 在 一 个 组 一 一 簇 (Cluster) 中 , 再 解释 和 理解 每 个 簇 的 含义 ， 
从 中 发 现 聚 类 的 意义 。 

【 例 1.2】 给 定 如 表 1.1 所 示 的 数据 集 T， 使 用 无 指导 聚 类 方法 ， 对 所 有 实例 进行 分 
类 ， 解 释 每 个 艇 的 含义 。 

对 于 表 1.1 中 的 数据 先进 行 简单 处 理 ， 删 除 Cold-type( 感 冒 类 型 ) 属 性 ， 这 样 表 中 数据 
仅 为 患者 的 患 病症 状 ， 没 有 诊断 结果 ， 即 没有 任何 有 指导 性 的 分 类 信息 。 现 在 我 们 希望 通 
过 无 指导 聚 类 方法 ， 从 这 些 数据 中 挖掘 出 潜在 的 有 价值 的 信息 或 模式 。 

与 有 指导 学 习 不 同 ， 在 无 指导 聚 类 之 前 ， 不 能 确定 数据 挖掘 的 目标 ， 即 我 们 希望 找到 
有 价值 的 信息 ， 但 具体 找 什 么 ， 没 有 明确 的 目标 。 一 般 情况 下 ， 可 以 在 评估 了 无 指导 聚 类 
模型 的 质量 后 ， 对 于 将 实例 聚 类 为 质量 较 好 的 几 个 簇 的 属性 进行 评估 ， 评 估 哪 些 属性 能 够 
较 好 地 聚 类 徐 ， 哪 些 属性 能 够 较 好 地 区 分 不 同 簇 的 实例 。 

无 指导 聚 类 有 很 多 种 算法 , 如 -means(K- 均 值 ) 算 法 、 凝聚 聚 类 方法 、 概 念 分 层 Cobweb 
算法 、EM 算法 等 ， 其 中 K-means 算法 是 一 种 最 为 常用 和 易 用 的 算法 。 算 法 需要 在 聚 类 前 
指定 一 个 初始 簇 的 个 数 ， 本 例 中 ， 可 以 将 初始 簇 个 数 指定 为 2， 应 用 K-means 算法 ， 将 去 
掉 感 冒 类 型 后 的 表 1.1 中 的 实例 聚 类 为 两 个 徐 ， 每 个 徐 有 5 个 实例 ， 分 别 为 Cluster 0 = 
{1,3,4,8,9} 和 Cluster 1 = {2,5,6.7,10}( 其 中 的 数字 为 实例 在 表 1.1 中 的 序号 )。 通 过 观察 这 两 
个 簇 实例 的 感冒 类 型 属性 ， 发 现实 际 上 两 个 簇 分 别 表 达 了 病毒 性 感冒 (Cold-type = ViraD 和 
细菌 性 感冒 (Cold-type = Bacterial) 两 种 感冒 类 型 。 每 个 簇 的 概念 结构 可 以 表示 为 一 个 产生 式 
规则 ， 其 规则 如 下 。 


(1) IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0 
(rule accuracy = 4/4 = 100%, rule coverage = 4/5 = 80%) 

(2) IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1 
(rule accuracy = 4/4 = 100%, rule coverage = 4/5 = 80%) 


每 条 规则 结论 的 后 面 的 数字 表示 规则 的 准确 率 和 覆盖 率 ， 分 别 表 示 了 规则 的 置信 和 度 和 
有 效 性 。Cluster 0 和 Cluster 1 的 规则 准确 率 分 别 为 100%, 表示 这 两 条 规则 在 满足 前 提 条 件 
的 情况 下 ，100% 是 正确 的 。Cluster 0 和 Cluster 1 的 规则 覆盖 率 分 别 为 80%， 表 示 在 Cluster 0 
和 Cluster 1 的 实例 中 的 80% 满 足 规则 的 前 提 条 件 。 

Cluster 0 规则 显示 出 当 某 人 淋巴 细胞 升 高 且 用 了 退烧 药 后 效果 较 好 ， 则 他 一 定 患 有 病 
毒性 感冒 ， 在 患 病毒 性 感冒 的 人 里 ， 有 80% 淋 巴 细胞 升 高 且 用 了 退烧 药 后 效果 较 好 。 
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1.3 数据 查询 


数据 查询 (Data Query) 是 通过 数据 查询 语言 在 数据 中 找 出 所 需要 的 数据 或 信息 。 数据 查 
询 与 数据 挖掘 在 定义 中 有 相似 的 地 方 ， 都 是 从 数据 中 找 出 需要 的 信息 。 那 么 什么 时 候 应 该 
使 用 数据 挖掘 ， 什 么 时 候 使 用 数据 查询 呢 ? 

在 明确 需要 查找 的 数据 或 信息 的 情况 下 ， 可 以 考虑 使 用 数据 库 查 询 语言 ， 如 SQL 语 
和 OLAP( 联 机 分 析 处 理 ) 工 具 发 现 并 报告 数据 库 中 的 信息 。 例 如 : 

(1) 查找 平均 成 绩 大 于 等 于 85 分 的 学 生 姓 名 。 

(2) 找 出 所 有 咽 痛 的 患者 。 

(3) 给 出 患 有 病毒 性 感冒 又 不 发 烧 的 患者 名 单 。 

(4) 找 出 患 有 病毒 性 感冒 和 细菌 性 感冒 的 人 数 。 

(5) 找 出 职业 为 教师 的 驾车 者 8 月 份 因 闭 红 灯 接 受 违章 处 罚 的 信息 。 

以 上 这 些 查 询 能 够 为 决策 提供 有 价值 的 信息 ， 但 这 些 信 息 是 浅 层次 的 信息 或 知识 ， 它 
们 是 数据 中 显 式 存 在 的 数据 或 信息 一 一 浅 知识 或 多 维 知识 (Multidimensional Knowledge)。 数 
据 查 询 要 么 是 对 原始 数据 的 简单 投影 和 选取 ， 要 么 是 基于 多 维 的 数据 选取 ， 要 么 是 对 数据 
进行 统计 计算 获得 的 计算 数据 或 汇总 信息 ， 它 不 能 获取 数据 中 潜在 的 、 隐 藏 的 信息 或 知 
识 一 一 隐 含 知识 (Hidden Knowledge)。 

在 数据 挖掘 之 前 ， 要 寻找 的 信息 或 知识 等 不 是 非常 明确 或 者 只 有 一 个 寻找 方向 。 例 如 

(1) 开发 一 个 描述 感冒 类 型 的 特征 文件 ， 用 于 疾病 诊断 。 

(2) 对 于 完成 一 天 的 学 习 任 务 后 是 否 外 出 打 篮 球 ， 给 出 一 个 决策 模型 。 

(3) 对 某 种 植物 的 特征 进行 提取 ， 建 立 分 类 模型 。 

(4) 预测 股票 价格 。 

(5) 找 出 顾客 网 络 购物 行为 中 的 规律 。 

使 用 数据 查询 很 难得 到 上 述 问题 的 理想 答案 。 在 具有 高 质量 、 充 足 的 数据 的 情况 下 ， 
通过 数据 挖掘 的 有 指导 学 习 、 无 指导 聚 类 和 关联 分 析 能 够 较 好 地 完成 上 述 任务 。 


1.4 专家 系统 


一 些 情况 下 ， 使 用 数据 查询 和 数据 挖掘 方法 都 不 能 有 效 地 解决 问题 。 例 如 : 希望 发 现 
数据 中 潜在 的 有 价值 的 信息 ， 而 不 是 显 式 的 信息 ; 缺乏 高 质量 的 、 充 足 的 数据 ; 没有 可 行 
的 数据 挖掘 算法 等 ， 此 时 ， 在 需要 解决 问题 的 领域 中 ， 寻 找到 一 位 或 几 位 能 够 高 效 解决 领 
域 问题 的 人 或 模拟 这 些 人 解决 问题 的 计算 机 软件 系统 是 个 可 行 的 办 法 。 

专家 系统 (Expert System) 是 一 种 具有 “智能 ”的 计算 机 软件 系统 ， 它 能 够 模拟 某 个 领域 
的 人 类 专家 的 决策 过 程 ， 解 决 那些 需要 人 类 专家 处 理 的 复杂 问题 。 专 家 系统 中 一 般 包 含 以 
规则 形式 表示 的 领域 专家 的 知识 和 经 验 ， 系 统 就 是 利用 这 些 知 识 和 方法 进行 推理 和 判断 ， 
从 而 解决 该 领域 中 的 实际 问题 。 有 能 力 解决 领域 中 复杂 问题 的 人 通常 被 称 为 该 领域 中 的 专 
家 (Experb。 如 能 够 诊断 疑难 杂 病 的 医生 、 能 够 作出 市 场 决策 的 CEO、 能 够 处 理 法 律 纠纷 的 


BD 


节 


法 律 顾问 等 。 专 家 通常 具有 该 领域 中 较 高 的 知识 水 平和 技能 ， 具 有 丰富 的 经 验 ， 能 够 快速 


有 效 地 解决 领域 问题 。 


对 于 感冒 类 型 诊断 问题 ,图 1.2 给 出 了 使 用 专家 系统 和 数据 挖掘 解决 问题 的 过 程 。 数 
据 挖掘 方法 使 用 数据 和 数据 挖掘 工具 创建 感冒 类 型 诊断 的 规则 系统 ， 而 使 用 专家 系统 的 方 
法 是 借助 于 两 种 人 一 一 专家 和 知识 工程 师 以 及 专家 系统 创建 工具 产生 感冒 类 型 诊断 的 规则 
系统 。 其 中 知识 工程 师 (Knowledge Engineer) 接 受 培训 , 为 获取 专家 的 知识 而 与 之 进行 交流 。 
获取 知识 后 ， 使 用 自动 化 工具 创建 新 知识 的 计算 机 模型 。 不 论 是 通过 专家 系统 还 是 数据 挖 
掘 方法 创建 的 知识 系统 (这 里 的 规则 系统 )， 是 一 样 的 模型 系统 。 另 外 ， 还 可 以 让 专家 系统 


和 数据 挖掘 进行 协作 ， 共 同 解决 较为 困难 的 问题 。 


知识 工程 师 


专家 系统 创建 工具 数据 挖掘 工具 
规则 : 规则 : 


IF Sore-throat = No 
THEN Cold-type = Viral 


IF Sore-throat ~ No 
THEN Cold-type = Viral 


图 1.2 专家 系统 vs 数据 挖掘 


1.5 数据 挖掘 的 过 程 


数据 挖掘 是 KDD 过 程 中 的 一 个 阶段 ， 第 3 章 将 详细 介绍 KDD 的 完整 处 理 过程 ， 这 里 


只 描述 一 次 数据 挖掘 实验 所 经 历 的 过 程 。 可 以 将 一 次 数据 挖掘 实验 分 为 以 下 四 个 步骤 。 
(1) 准备 数据 ， 包 括 准 备 训练 数据 和 检验 数据 。 
(2) 选择 一 种 数据 挖掘 技术 或 算法 ， 将 数据 提交 给 数据 挖掘 软件 。 
(3) 解释 和 评估 结果 。 
(4) 模型 应 用 。 
一 次 数据 挖掘 实验 过 程 的 简单 示意 如 图 1.3 所 示 。 


数据 准备 。” 王 >| 。。 数据 挖 据 。 ”< 一 >| ”数据 解释 和 评估 ”< 一 > 。。 模型 应 用 
‘ 


传统 数据 库 / 数 据 仓库 /平面 文件 数据 挖掘 技术 和 算法 


1.3 ”数据 挖掘 实验 过 程 示意 图 
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1.5.1 准备 数据 


数据 挖掘 中 数据 的 质量 和 数量 是 影响 挖掘 结果 的 重要 因素 ， 可 能 需要 花费 大 量 的 时 间 
和 精力 ， 所 以 数据 准备 是 整个 数据 挖掘 过 程 中 较为 重要 和 费时 费力 的 阶段 。 数 据 挖掘 的 数 
据 集 的 大 小 可 能 是 万 条 或 十 万 条 ， 也 可 能 是 十 条 、 几 十 条 或 几 百 条 ， 通 常情 况 下 ， 数 据 集 
中 具有 几 百 条 或 几 千 条 实例 ， 大 多 数 数据 挖掘 工具 工作 效果 最 好 。 

在 明确 数据 挖掘 目标 后 ， 可 以 通过 从 传统 数据 库 、 数 据 仓库 和 平面 文件 三 种 途径 收集 
和 抽取 数据 。 


1. 传统 数据 库 


数据 来 源 之 一 为 一 个 或 多 个 传统 数据 库 。 传 统 数据 库 又 称 为 操作 型 数据 库 (Operational 
Database)， 它 是 面向 日 常事 务 处 理 的 数据 库 ， 通 常 结构 为 关系 模型 。 数 据 库 中 包含 若干 个 
规范 化 了 的 二 维 关系 表 。 


2. 数据 仓库 


数据 仓库 (Data Warehouse) 是 面向 决策 支持 而 不 是 日 常事 务 处 理 而 设计 的 。 数 据 仓库 是 
从 多 种 、 异 构 、 分 散 的 传统 操作 型 数据 库 或 其 他 数据 源 中 抽取 面向 主题 的 数据 ， 打 上 时 间 
稚 ， 进 行 集成 存储 。 在 从 操作 环境 中 抽取 数据 时 ， 通 常 要 进行 数据 的 清洗 和 变换 。 

数据 仓库 中 存储 的 所 有 数据 是 面向 同一 主题 的 ， 通 常 具有 宛 余 数据 。 数 据 挖掘 就 是 利 
用 这 些 元 余数 据 发 现 知识 ， 建 立 模型 。 数 据 仓 库 中 的 数据 用 来 支持 面向 主题 的 OLAP 或 数 
据 挖掘 ， 所 以 一 般 是 只 读 的 ， 只 有 在 特殊 情况 下 才 可 以 进行 修改 。 第 4 章 将 详细 讨论 数据 
仓库 、 关 系数 据 模 型 和 OLAP。 


3. 平面 文件 


一 些 数据 量 较 小 的 数据 集 可 以 存储 在 如 Excel 电子 表格 、.csv、.arff 这 样 的 平面 文件 
中 。 如 表 1.1 所 在 的 ColdType.xls 文件 。 


1.5.2 ”挖掘 数据 


数据 准备 完成 后 ， 选 择 一 种 数据 挖掘 技术 或 算法 ， 将 数据 提交 给 数据 挖掘 工具 ， 应 用 
该 算法 建立 模型 。 在 选择 数据 挖掘 技术 或 算法 时 ， 需 要 进行 如 下 考虑 。 

(1) 判断 学 习 是 有 指导 的 还 是 无 指导 的 。 

(2) 数据 集中 的 哪些 实例 和 属性 提交 给 数据 挖掘 工具 ; 哪些 数据 实例 作为 训练 数据 ; 
哪些 数据 实例 作为 检验 数据 。 

(3) 如 何 设置 数据 挖掘 算法 的 参数 。 

在 第 3 章 中 ， 将 详细 介绍 对 于 以 上 问题 的 考虑 。 


1.5.3 ”解释 和 评估 数据 


解释 和 评估 数据 是 对 数据 挖掘 的 输出 进行 检查 ， 评 估 其 是 否 达到 挖掘 目标 ， 确 定 所 发 


| 


现 的 信息 或 知识 是 有 价值 的 。 数 据 挖 掘 的 评估 工具 有 多 种 ， 关 于 这 部 分 内 容 将 在 第 5 章 中 
详细 介绍 。 

如 果 数 据 挖 掘 的 结果 经 过 解释 和 评估 后 ， 发 现 不 理想 ， 可 以 使 用 或 选择 新 的 数据 实例 
或 属性 ， 选 择 新 的 数据 挖掘 算法 或 参数 ， 进 行 重复 实验 ， 直 到 得 到 满意 结果 为 止 。 所 以 一 
个 数据 挖掘 过 程 是 个 迭代 的 过 程 ， 往 往 需要 多 次 实验 来 获取 最 为 满意 的 结果 。 


1.5.4 ”模型 应 用 


数据 挖掘 的 终极 目标 是 将 所 发 现 的 知识 应 用 于 解决 实际 问题 ， 即 模型 的 应 用 。 可 以 应 
用 分 类 模型 解决 如 例 1.1 中 的 疾病 诊断 问题 ， 可 以 应 用 聚 类 模型 解决 对 顾客 的 分 类 ， 找 出 
不 同类 中 顾客 的 行为 特征 ， 从 而 为 诸如 促销 活动 等 提供 决策 支持 ， 可 以 通过 应 用 关联 分 析 
模型 ， 找 出 顾客 购买 的 商品 之 间 的 关联 关系 ， 对 于 货架 摆 放 、 商 品 促销 等 提供 决策 支持 。 


1.6 ”数据 挖掘 的 作用 


数据 挖掘 的 作用 可 以 分 为 两 大 类 : 建立 有 指导 的 学 习 模型 和 无 指导 聚 类 模型 。 有 指导 
的 学 习 模型 是 通过 使 用 若干 输入 属性 来 预测 输出 属性 的 值 。 多 数 有 指导 的 数据 挖掘 算法 仅 
允许 有 一 个 输出 属性 ， 可 以 有 多 个 输入 属性 。 数 据 集中 的 输入 属性 和 输出 属性 的 类 型 可 以 
是 分 类 类 型 或 数值 类 型 ， 也 可 以 是 两 者 的 混合 。 有 指导 的 学 习 模型 中 的 输出 属性 的 值 依 赖 
于 输入 属性 的 取 值 ， 所 以 输出 属性 又 被 称 为 因 变 量 (Dependent Variables)， 相 对 的 ， 输 入 属 
性 被 称 为 自 变量 (Independent Variables)。 当 学 习 是 无 指导 的 时 ， 不 存在 输出 属性 ， 数 据 集 
中 的 所 有 属性 都 是 输入 属性 一 一 自 变 量 。 

有 指导 的 学 习 模型 又 可 以 按照 输出 属性 是 分 类 类 型 的 还 是 数值 类 型 的 ， 分 为 分 类 模型 
和 估计 模型 。 同 时 若 模型 是 用 来 预测 未 来 结果 的 ， 则 该 模型 又 可 以 被 称 为 预测 模型 。 不 论 
有 指导 的 学 习 模型 是 哪 一 类 ， 都 可 统称 为 分 类 模型 。 在 无 指导 聚 类 模型 中 ， 可 以 将 分 析 属 
性 间 关 联 关系 的 模型 称 为 关联 分 析 模 型 。 这 样 ， 数 据 挖掘 根据 其 用 于 分 类 、 人 估计、 预测、 
聚 类 和 关联 分 析 而 建立 的 模型 共有 五 种 ， 如 图 1.4 所 示 。 


数据 挖掘 的 作用 


有 指导 的 学 习 无 指导 聚 类 关联 关系 分 析 


分 类 || 估计 || 预 则 


图 1.4 数据 挖掘 的 作用 


1.6.1 分 类 


分 类 (Classification) 是 通过 有 指导 的 学 习 训 练 建立 分 类 模型 ， 使 用 模型 对 未 知 分 类 的 实 
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例 进 行 分 类 。 注 意 ， 分 类 的 输出 属性 是 分 类 类 型 而 不 是 数值 类 型 的 。 例 1.1 中 的 决策 树 就 
是 分 类 模型 。 


1.6.2 估计 


1 
1 
| 与 分 类 模型 相似 ， 估 计 (Estimation) 模 型 是 用 来 确定 一 个 未 知 的 输出 属性 值 。 与 分 类 模 
| 型 不 同 的 是 ， 估 计 模 型 的 输出 属性 是 数值 类 型 的 而 不 是 分 类 类 型 的 。 如 估计 房屋 的 价格 、 
! 客户 的 年 龄 等 ， 都 是 估计 模型 的 作用 。 

1 大 多 数 有 指导 数据 挖掘 技术 不 能 同时 解决 分 类 和 估计 两 类 问题 。 如 决策 树 算法 只 能 建 
| 立 分 类 模型 ， 不 能 建立 估计 模型 ， 即 输出 属性 只 能 为 分 类 类 型 的 ， 不 能 是 数值 类 型 的 。 为 
1 了 能 够 使 用 某 种 本 不 支持 该 类 模型 建立 的 算法 建立 该 类 模型 ， 通 常 的 做 法 是 对 属性 的 类 型 
' 进行 变换 。 如 为 了 估计 房屋 的 价格 而 建立 有 指导 的 学 习 模 型 ， 价 格 属性 为 数值 类 型 的 输出 
属性 ， 不 能 使 用 决策 树 算 法 建立 分 类 模型 。 为 了 能 够 使 用 决策 树 算法 ， 可 以 将 数值 型 的 价 
格 映射 为 几 个 离散 的 区 间 值 ， 如 使 用 100 一 499 开 、500 一 999 民 、1000 一 1999 玉 、2000 一 2999 开 
等 分 别 表 示 10 万 一 49.9 万 、50 万 一 99.9 万 、100 万 一 199.9 万 、200 万 一 299.9 万 等 价格 区 
间 ， 这 样 就 可 以 使 用 决策 树 算法 建立 的 分 类 模型 来 估计 房屋 的 价格 区 间 了 。 又 比如 ， 使 用 
归 方 程 模型 可 以 估计 或 预测 输出 属性 的 数值 型 结果 , 若 需 要 使 用 回归 分 析 建 立 分 类 模型 ， 
此 时 数据 集 实 例 的 实际 输出 属性 为 分 类 类 型 的 值 ， 如 Yes 或 No, 用 回归 分 析 建 立 模型 之 前 
需要 将 Yes 和 No 变换 为 数值 型 的 1 和 0。 模 型 的 估 值 结果 不 一 定 正好 是 1 或 0， 那 么 可 以 
约定 接近 1 的 输出 表示 为 Yes， 接 近 0 的 输出 表示 为 No， 这 样 就 使 得 估 值 或 预测 模型 发 
挥 了 分 类 模型 的 作用 。 


1.6.3 ”预测 


回 


与 分 类 模型 和 估计 模型 不 同 ， 预 测 模型 的 目的 是 确定 未 来 的 输出 结果 而 不 是 当前 的 行 
为 。 预 测 模型 的 输出 可 以 是 分 类 类 型 的 或 数值 型 的 。 如 预测 一 个 人 是 否 会 去 打 篮球 ， 预 测 
明天 上 证 指数 的 收盘 价格 ， 预 测 在 未 来 的 三 个 月 内 ， 哪 些 客户 会 购买 某 种 品牌 手机 等 。 

大 部 分 用 以 建立 分 类 或 估计 模型 的 有 指导 数据 挖掘 技术 同样 可 用 于 建立 预测 模型 。 在 
实际 应 用 中 ， 不 需要 严格 区 分 分 类 、 估 计 和 预测 ， 认 为 它们 都 是 分 类 模型 ， 用 于 解决 三 个 
方面 的 问题 。 但 是 ， 在 选择 数据 挖掘 技术 或 算法 时 ， 需 要 考虑 算法 所 要 求 的 输入 和 输出 属 
性 的 数据 类 型 的 要 求 。 如 决策 树 算 法 要 求 输出 属性 为 分 类 类 型 的 ， 而 输入 属性 可 以 是 分 类 
的 ， 也 可 以 是 数值 的 ， 而 回归 分 析 则 要 求 输入 和 输出 属性 都 必须 是 数值 类 型 的 数据 。 


1.6.4 无 指导 聚 类 


对 于 无 指导 聚 类 ， 没 有 因 变 量 来 指导 学 习 过 程 。 通 过 对 聚 类 所 形成 的 艇 的 质量 进行 度 
量 而 将 最 相似 的 实例 分 在 若干 个 簇 中 , 每 个 徐 有 定义 明确 的 含义 , 包含 着 学 习 的 概念 结构 。 
无 指导 聚 类 的 主要 目标 就 是 发 现 数据 中 的 这 些 概念 结构 。 无 指导 聚 类 一 般 有 以 下 四 个 方面 
的 作用 。 

(1) 在 数据 中 发 现 概念 形式 的 有 价值 的 知识 ( 见 第 2 章 )。 
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(2) 对 有 指导 的 学 习 模型 的 性 能 进行 评估 ( 见 第 5 章 )。 

(3) 选择 属性 ， 确 定 有 指导 学 习 的 最 佳 输入 属性 ( 见 第 5 章 ). 

(4) 探测 孤立 点 ( 见 第 3 章 )。 

关于 第 一 条 作用 ， 例 1.2 已 经 说 明了 使 用 聚 类 方法 如 何 发 现 数据 中 的 有 价值 的 知识 。 

关于 第 二 条 和 第 三 条 作用 ， 使 用 无 指导 聚 类 技术 评估 有 指导 模型 的 性 能 ， 是 无 指导 聚 
类 的 一 个 重要 应 用 。 在 建立 了 一 个 有 指导 学 习 模型 之 后 ,发现 检验 集 分 类 正确 率 不 够 理想 ， 
此 时 可 能 是 多 方面 的 因素 影响 模型 的 性 能 ， 其 中 就 包括 训练 数据 中 的 属性 是 否 对 于 分 类 有 
较 强 的 预测 能 力 。 为 了 能 够 找 出 对 于 分 类 最 具 贡 献 价值 的 属性 ， 可 以 对 建立 有 指导 学 习 模 
型 的 训练 数据 集 进 行 聚 类 分 析 ， 将 原来 的 输出 属性 删除 后 ， 按 照 有 指导 模型 中 的 输出 属性 
的 可 能 取 值 的 个 数 设 置 初始 簇 个 数 ， 进 行 无 指导 聚 类 分 析 ， 检 查 聚 类 输出 以 确定 来 自 有 指 
导 概 念 类 的 实例 是 否 能 够 自然 地 聚 类 在 一 起 。 如 果 不 能 ， 可 以 断定 用 于 训练 的 属性 不 能 用 
于 区 分 概念 类 ， 这 样 可 解释 有 指导 的 学 习 模型 运行 不 好 的 原因 。 重 新 选择 属性 ， 再 应 用 无 
指导 聚 类 进行 前 述 的 属性 评估 ， 重 复试 验 ， 直 到 为 有 指导 的 学 习 模 型 选择 出 一 组 最 优 的 
属性 。 

关于 第 四 条 作用 ， 无 指导 聚 类 还 可 以 用 于 探测 数据 中 出 现 的 非典 型 实例 。 非 典型 实例 
又 被 称 为 孤立 点 (Outliers)， 无 指导 聚 类 通过 检查 那些 不 能 和 其 他 实例 自然 聚 类 在 一 起 的 那 
些 实例 来 识别 孤立 点 。 识 别 孤立 点 是 重要 的 ， 在 使 用 统计 技术 进行 数据 挖掘 时 ， 经 常 将 孤 
立 点 作为 噪声 数据 进行 处 理 。 而 对 于 某 些 应 用 ， 识 别 孤 立 点 是 用 来 判断 特异 情况 的 发 生 ， 
如 在 判断 信用 卡 是 否 被 次 用时， 孤立 于 持 卡 人 的 信用 卡 消费 特征 之 外 的 消费 行为 被 识别 为 
一 个 孤立 点 ， 它 就 可 能 是 一 次 盗用 信用 卡 进行 消费 的 交易 实例 。 


1.6.5 ”关联 关系 分 析 


关联 分 析 (Association Analysis) 是 发 现 事物 之 间 关 联 关系 的 分 析 过 程 ， 其 典型 应 用 就 是 
购物 篮 分 析 (Market Basket Analysis)。 购 物 篮 分 析 是 确定 顾客 在 一 次 购物 中 可 能 一 起 购买 的 
商品 ， 发 现 其 购物 篮 中 不 同 商品 之 间 的 联系 ， 分 析 顾 客 的 购买 习惯 ， 从 而 发 现 购买 行为 之 
间 的 关联 。 这 种 关联 的 发 现 可 以 帮助 零售 商 制定 营销 策略 ， 其 中 一 个 著名 的 应 用 案例 就 是 
尿布 和 啤酒 。 购 物 篮 分 析 的 输出 结果 是 描述 顾客 购买 行为 的 一 组 关联 关系 ， 这 些 关 联 关系 
以 一 组 特殊 的 规则 形式 一 一 关联 规则 (Association Rules) 来 表达 。 关 于 关联 分 析 将 在 第 2 章 
中 进行 详细 说 明 。 


1.7 ”数据 挖掘 技术 


数据 挖掘 技术 (Data Mining Technique) 是 对 一 组 数据 应 用 一 种 数据 挖掘 方法 ， 一 般 由 一 
个 数据 挖掘 算法 和 一 个 相关 的 知识 结构 ,如 树 结构 或 规则 来 定义 的 。 在 1.2.3 节 介绍 了 决策 
树 技术 和 产生 式 规则 ， 下 面 将 介绍 两 种 有 指导 数据 挖掘 技术 的 神经 网 络 和 回归 分 析 ， 以 及 
一 种 关联 分 析 和 聚 类 技术 技术 。 
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1.7.1 神经 网 络 


成 功 地 应 用 于 多 个 领域 的 问题 中 ， 是 非常 流行 的 数据 挖掘 技术 。 


间 不 相连 。 每 个 网 络 连 接 上 都 具有 权重 值 ， 如 图 中 的 wy、wy、wy 等 。 
输入 层 隐 层 输出 层 


图 1.5 三 层 全 连接 前 馈 神经 网 
对 于 前 馈 网 络 ， 一 个 实例 的 输入 属性 值 输入 到 输入 层 ， 通 过 隐 层 到 达 输 出 层 。 


神经 网 络 (Neural Network) 是 一 种 具有 统计 特性 的 数学 模型 ， 它 的 创建 思想 源 于 人 类 神 
经 网 络 的 结构 、 功 能 和 运行 过 程 。 它 试图 模拟 人 脑 的 功能 来 完成 学 习 功 能 。 神 经 网 络 已 经 


神经 网 络 表现 为 多 种 形状 和 格式 ， 可 以 建立 有 指导 的 学 习 模 型 和 无 指导 的 聚 类 模型 。 
神经 网 络 的 输入 属性 必须 是 数值 类 型 的 ， 输 出 属性 则 可 以 是 数值 类 型 的 也 可 以 是 分 类 类 型 的 。 
前 馈 (Feed-Forward) 神 经 网 是 常用 的 有 指导 的 学 习 模 型 。 图 1.5 是 一 个 三 层 全 连接 前 馈 
神经 网 。 全 连接 指 的 是 每 一 层 的 每 个 节点 都 与 其 下 一 层 的 所 有 节点 相连 接 ， 而 同 层 节点 之 


输入 层 


节点 数 由 输入 属性 的 个 数 决定 ， 每 个 输入 属性 都 有 一 个 输入 层 节点 。 输 出 层 可 能 有 一 个 或 


多 个 节点 (图 1.5 中 输出 层 有 一 个 节点 ) 来 表达 模型 的 输出 结果 。 


建立 神经 网 络 模型 分 为 两 个 阶段 。 第 一 个 阶段 为 学 习 训练 阶段 ， 第 二 个 阶段 为 检验 阶 


段 。 在 网 络 训练 期 间 ， 将 每 个 实例 的 输入 属性 值 提交 给 输入 层 节点 。 神 经 网 络 使 用 


输入 值 


和 网 络 连 接 权重 值 来 计算 每 个 实例 的 输出 。 将 每 个 实例 的 输出 和 希望 的 网 络 输出 进行 比较 ， 
希望 值 和 计算 输出 值 之 间 的 误差 通过 修改 连接 权 值 传 回 网 络 。 当 达到 一 定 的 迭代 次 数 后 或 
当 网 络 收敛 到 一 个 预定 的 最 低 错 误 率 时 ， 训 练 终止 。 在 模型 建立 的 第 二 阶段 中 ， 固 定 网 络 


权重 ， 将 模型 用 于 计算 新 实例 的 输出 值 。 


神经 网 络 方法 的 主要 缺点 是 缺乏 对 所 学 内 容 的 解释 ， 以 及 将 分 类 类 型 的 数据 转换 为 数 


值 型 值 。 
在 第 6 章 中 将 详细 介绍 神经 网 络 技术 。 


1.7.2 回归 分 析 


可 归 分 析 (Regression Analysis) 是 一 种 统计 分 析 方 法 ， 它 可 以 用 来 确定 两 个 或 两 个 以 上 


变量 之 间 的 定量 的 依赖 关系 ， 并 建立 一 个 数学 方程 作为 数学 模型 ， 来 概 化 一 组 数值 数据 ， 


进而 进行 数值 数据 的 估 值 和 预测 ， 其 应 用 非常 广泛 。 
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表 1.3 中 的 数据 集 有 11 个 实例 ,每 个 实例 数据 描述 了 一 座 办公 楼 的 Floor Space( 底 层面 
积 )、Number of Offices( 办 公 室 个 数 )、Number of Entrances( 入 口 个 数 )、Building Age( 大 楼 使 
用 年 数 ) 和 Value( 价 值 )。 开 发 商 希 望 根 据 这 些 实例 应 用 线性 回归 分 析 来 估计 出 某 个 不 知道 价 
值 的 办 公 楼 的 价值 。 

将 Floor Space、Number of Offices、Number of Entrances 和 Building Age 作为 自 变 量 ， 
分 别 用 x 、x,、 避 和 x 表示 ，Value 作为 因 变量 ， 使 用 回归 分 析 建 立 的 回归 模型 如 式 (1.1) 
所 示 。 


Value = 27.64x +12529.77x, + 2553.21x, + (-234.24)x, + 52317.83 (ly 


表 1.3 办 公 楼 数据 集 


No. Space(x1) Value 
1 2310 142000 
2 2333 144000 
3 2356 151000 
4 2379 150000 
5 2402 139000 
6 2425 169000 
7 2448 126000 
8 2471 142900 
9 2494 163000 
10 2517 169000 
12 2540 149000 


现在 ， 开 发 商 可 以 使 用 回归 方程 预 估 办 公 楼 的 价值 了 。 设 有 一 座 未 知 价值 的 办 公 楼 
面积 为 2500、3 个 办 公 室 、2 个 入 口 ， 已 使 用 25 年 ， 则 其 估计 价值 由 式 (1.2) 计 算 所 得 ， 为 
158257.56。 

y=27.64x2500+12529.77x3+2553.21x2-234.24x25+52317.83=158257.56 人 

在 第 7 章 中 将 详细 介绍 回归 分 析 方 法 和 工具 。 


1.7.3 ”关联 分 析 


关联 分 析 是 一 种 关联 规则 (Association Rule) 挖 掘 技术 , 用 于 发 现 数据 中 属性 之 间 的 有 价 
值 的 联系 。 与 传统 的 产生 式 规则 不 同 ， 关 联 规则 可 以 有 多 个 输出 属性 ， 且 一 个 规则 的 输出 
属性 可 以 在 另 一 规则 中 作为 输入 属性 。 关 联 分 析 可 以 用 来 发 现 潜在 的 令 人 感 兴趣 的 商品 购 
买 组 合 ， 是 购物 篮 分 析 的 常用 技术 。 

关联 分 析 有 多 种 算法 ， 其 中 最 著名 的 为 拉克 什 。 阿 戈 沃 Rakesh Agrawal) 等 人 于 1993 
年 提出 的 Apriori 关联 分 析 算 法 。Apriori 算法 不 支持 数值 型 数据 , 所 以 在 使 用 该 算法 之 前 ， 
需要 进行 必要 的 数据 变换 。 
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【 例 1.3】 应 用 Apriori 算法 ， 对 表 1.1 中 的 数据 集 进行 关联 分 析 ， 找 出 感冒 症状 之 间 
的 关联 关系 。 

对 表 1.1 中 的 感冒 类 型 诊断 数据 集 应 用 Apriori 算法 所 生成 的 三 条 关联 规则 如 下 。 

a IF Leukocytosis = Yes THEN Fever = Yes 

(rule accuracy = 5/5 = 100%, rule coverage = 5/8 = 62.5%) 

(2) IF Increased-lym = No THEN Sore-throat=Yes 

(rule accuracy = 4/4 = 100%, rule coverage = 4/7 = 57.1%) 

(3 IF Cooling-effect = Good THEN Fever = Yes 

(rule accuracy = 4/4 = 100%, rule coverage = 4/8 = 50%) 

这 三 条 规则 的 准确 率 都 达到 了 100%， 它 们 的 覆盖 率 分 别 为 62.5%、57.1% 和 50%。 对 
于 第 三 条 规则 中 50% 的 规则 覆盖 率 说 明 ， 每 两 个 发 烧 的 人 中 有 一 个 使 用 退烧 药 后 退烧 效果 
较 好 。 

关联 分 析 可 能 会 产生 大 量 的 规则 ， 其 中 大 部 分 规则 是 无 价值 的 。 在 数量 繁多 的 规则 集 
合 中 找 出 有 价值 的 规则 ， 有 时 是 非常 困难 的 。 为 了 减少 最 终 产 生 规则 的 数量 ， 并 提高 规则 
的 质量 ， 可 以 通过 控制 准确 率 和 覆盖 率 的 方法 ， 尽 可 能 地 降低 关联 规则 的 数目 。 

在 第 2 章 中 将 详细 探讨 Apriori 算法 的 使 用 。 


1.7.4 ” 聚 类 技术 


聚 类 技术 作为 数据 挖掘 的 重要 技术 ， 具 有 多 种 算法 ， 包 括 基 于 划分 的 聚 类 方法 、 基 于 
分 层 的 聚 类 方法 和 基于 模型 的 聚 类 方法 等 。 前 面 介绍 的 K-means 算法 (第 2 章 还 将 详细 探讨 
该 算法 )， 就 是 著名 的 基于 划分 的 聚 类 方法 ， 在 第 6 章 中 还 将 介绍 三 种 聚 类 技术 ， 包 括 凝 聚 
聚 类 和 Cobweb 两 种 概念 分 层 聚 类 方法 ， 以 及 一 种 基于 模型 的 聚 类 方法 一 EM 算法 。 

聚 类 技术 还 可 以 用 来 对 有 指导 学 习 模型 进行 评估 。 将 有 指导 建 模 使 用 的 训练 集 作为 无 
指导 聚 类 的 数据 集 ( 可 以 删除 有 指导 学 习 中 作为 输出 的 属性 ) 来 度量 聚 类 形成 的 簇 的 质量 。 
如 果 簇 的 质量 良好 ， 则 证 明 使 用 该 训练 集训 练 的 有 指导 模型 的 质量 良好 。 反 之 ， 可 以 证 明 
用 于 有 指导 学 习 的 训练 集 数 据 不 是 最 好 的 选择 ， 这 就 需要 在 有 指导 学 习 训练 之 前 ， 对 训练 
集中 的 实例 和 属性 进行 重新 评估 和 选择 。 


1.8 数据 挖掘 的 应 用 


数据 挖掘 已 经 成 功 应 用 到 经 济 、 科 学 、 社 会 和 生活 的 各 个 领域 ， 通 过 网 络 可 以 发 现 大 
量 关 于 数据 挖掘 的 资讯 、 公 司 、 工 作 岗位 、 公 共 领 域 、 商 业 软件 、 培 训 和 会 议 等 。 认 识 数 
据 挖掘 在 各 领域 中 的 应 用 ， 能 够 帮助 我 们 在 选择 和 应 用 数据 挖掘 技术 解决 实际 问题 时 提供 
参考 。 


1.8.1 应 用 领域 


根据 著名 的 数据 挖掘 网 站 www.kdnuggets.com 对 2012 年 数据 挖掘 应 用 所 作 的 一 个 投票 
调查 结果 ， 可 以 大 致 了 解 到 目前 数据 挖掘 应 用 领域 的 分 布 情况 ， 如 图 1.6 所 示 。 


BD 
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II 


1 Industrles / Fields where you applied Analytics / Data Mining in 2012? 
CRM/Consumer analytics (56) | 86% 
Health care/ HR (32) mm 1 63% 


Social Media / Social Networks (24) 
Science (23) 

Finance (20) 

Direct Marketing/ Fundraising (19) 
Search / Web content mining (16) 
BiotecvGenomics (15) 

Insurance (15) 

Credit Scoring (14) 

Manufacturing (14) 

Medical/ Pharma (13) 

Telecom/ Cable (13) 


Web usage mining (13) 
Software (11) 

Ecommerce (10) 
Govemment/Miltary (10) 
Entertainment/ Musicl TV/Movies (9) 


图 1.6 www.kdnuggets.com 网 站 公布 的 2012 年 数据 挖掘 的 应 用 领域 


www.kdnuggets.com 网 站 每 年 都 会 通过 问卷 调查 的 形式 收集 当年 的 数据 挖掘 应 用 领域 
的 数据 分 布 ， 并 发 布 。 每 年 的 应 用 领域 排名 不 尽 相 同 ， 但 几乎 覆盖 了 如 下 领域 。 

(1) Ecommerce / Finance / Banking / Insurance: 商业 、 人 金融、 银行 业 和 保险 业 。 

(2) Investment / Stocks: 投资 和 股票 。 

(3) Credit Scoring / Fraud Detection: 信用 评分 和 欺诈 检测 。 

(4) CRM / Consumer Analytics: 客户 关系 管理 和 消费 行为 分 析 。 

(5) HR: 人 力 资 源 管 理 。 

(6) Health care /Medical / Pharma: 健康 、 保 健 和 制药 业 。 

(7) Retail / Travel / Hospitality: 零售 业 、 旅 游 业 和 酒店 业 。 

(8) Direct Marketing / Fundraising: 直销 和 资金 募集 。 

(9) Science / Education: 科学 和 教育 。 

(10) Advertising / Social Media / Social Networks: 广告 、 社 交 媒体 和 社交 网 络 。 

(11) Search / Web content mining / Web usage mining: 搜索 、Web 文本 挖掘 和 使 用 挖掘 。 

(12) Software: 软件 。 
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(13) Biotech / Genomics: 生物 技术 和 基因 学 。 

(14) Manufacturing: 制造 业 。 

(15) Telecom / Cable: 电信 。 

(16) Entertainment / Music / Sports / TV / Movies: 娱乐 、 音 乐 、 体 育 、 电 视 和 电影 。 
(17) Govemment /Military: 政府 和 军事 。 

(18) Security / Anti-terrorism: 安全 和 反恐 。 

(19) Social Policy / Survey analysis: 社会 政策 和 调查 分 析 。 

(20) Junk email / Anti-spam: 反 垃 圾 邮件 。 


1.8.2 ”成功 案例 


除了 最 著名 的 数据 挖掘 成 功 应 用 案例 一 一 沃尔玛 的 尿布 和 啤酒 之 外 ， 在 各 个 领域 都 存 
在 着 大 量 的 成 功 应 用 案例 ， 现 在 列举 如 下 。 

(1) 美国 最 大 的 医疗 保险 公司 Empire Blue Cross 利用 数据 挖掘 技术 ， 甄 别 出 虚 假 开 立 
医疗 凭据 的 医生 ， 节 省 滥 赔 支出 。 

(2) 金融 犯罪 强制 网 络 AI 系统 (FAIS) 使 用 数据 挖掘 技术 ， 识 别 大 型 现金 交易 中 可 能 存 
在 的 洗钱 行为 。 

(3) 加 拿 大 西门 菲 沙 大 学 (Simon Fraser) 的 KDD 研究 组 根据 其 拥有 的 十 几 年 的 客户 数 
据 ， 进 行 数据 挖掘 分 析 ， 提 出 了 新 的 电话 收费 和 管理 办 法 ， 制 定 出 公司 和 客户 都 受益 的 优 

(4) 美国 梅 隆 (Mellom) 银 行使 用 Intelligent Agent 数据 挖掘 工具 提高 销售 和 定价 金融 产 
品 的 准确 率 。 

(5) 美国 西部 通信 (US West Communications) 根 据 家 庭 大 小 、 家 庭 成 员 平 均 年 龄 和 所 在 
地 特征 ， 使 用 数据 挖掘 和 数据 仓库 来 确定 客户 的 倾向 和 需要 ， 从 而 帮助 签约 新 客户 和 增加 
与 新 客户 的 交易 额 。 

(6) 使 用 贝 叶 斯 分 类 数据 挖掘 技术 ， 萨 莎 (Sacha) 等 人 成 功 地 通过 心肌 SPECT 图 像 对 心 
肌 灌注 进行 分 类 ， 诊 断 患 者 是 否 患 有 冠 心病 。 

(7) 20 世纪 Fox 公司 利用 数据 挖掘 技术 分 析 票 房 收 入 来 确定 在 各 个 市 场 环境 中 更 容易 
被 接受 的 演员 和 故事 情节 。 

(8) 科学 界 普遍 认为 存在 两 种 y 射线 爆 。 慕 克 吉 (Mukherjee) 等 人 使 用 统计 聚 类 分 析 法 
发 现 了 第 三 类 Y 射线 爆 。 

(9) NBA 球 队 使 用 IBM 公司 开发 的 数据 挖掘 应 用 软件 Advanced Scout 系统 来 优化 他 们 
的 战术 组 合 。 

(10) 全 球 十 大 视频 网 站 之 一 Netflix 公司 应 用 大 数据 的 挖掘 技术 ,成功 营 销 热 播 剧 一 一 
《纸牌 屋 》。 
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1.9 Weka 数据 挖掘 软件 


1.9.1 Weka 简介 


Weka(Waikato Environment for Knowledge Analysis， 怀 卡 托 智能 分 析 环 境 ) 诞 生 于 
University of Waikato( 新 西 兰 怀 卡 托 大 学 )， 是 一 个 基于 Java 的 免费 开源 软件 。 它 集成 了 大 
量 有 关 数 据 挖掘 的 机 器 学 习 算法 和 统计 技术 ， 具 有 数据 预 处 理 、 分 类 、 聚 类 、 关 联 分 析 、 
属性 选择 和 交互 式 可 视 化 等 功能 ， 其 操作 简单 、 易 学 易 用 ， 可 作为 入 门 软件 完成 一 些 简单 
的 数据 挖掘 工作 。 

艾 贝 。 弗 兰 克 (Eibe Frank) 教 授 等 人 利用 其 在 机 器 学 习 方 面 的 研究 积累 设计 开发 了 
Weka 系统 。Weka 最 早 是 用 C++ 语言 来 实现 的 ，1998 年 开始 用 Java 语言 重新 编写 。2005 
年 8 月 ， 在 第 11 届 ACM SIGKDD 国际 会 议 上 ， 怀 卡 托 大 学 的 Weka 小 组 荣获 了 数据 挖掘 
和 知识 发 现 领 域 的 最 高 服务 奖 ，Weka 系统 也 得 到 了 社会 的 广泛 认可 , 被 誉 为 数据 挖掘 和 机 
器 学 习 历史 上 的 里 程 碑 ， 是 现今 最 完备 的 数据 挖掘 工具 之 一 。 

Weka 具有 集成 化 用 户 界面 ， 用 户 可 以 在 所 选择 的 数据 集 上 应 用 各 种 预 处 理 和 数据 挖 
气 算 法 , 无 须 编程 。 同 时 利用 其 数据 可 视 化 工具 帮助 用 户 查 看 分 析 结 果 。Weka 还 有 一 个 通 
用 的 API， 可 以 像 嵌 入 其 他 库 一 样 将 Weka 嵌入 应 用 程序 以 实现 诸如 服务 器 端 自动 进行 数 
据 挖 掘 。 

Weka 基于 Java 环境 ， 若 计算 机 上 没有 安装 耻 E， 需 下 载 包含 JRE 的 Weka 版 本 。 
本 书 中 的 数据 挖掘 实验 使 用 的 是 Weka 3.6.10 版 本 。 


1. Weka 的 特点 


Weka 软件 具有 如 下 特点 。 

(1) 跨 平 台 ， 能 够 在 Windows、UNIX 等 多 种 操作 系统 环境 下 运行 。 

(2) 支持 结构 化 文本 文件 、 数 据 挖掘 格式 文件 和 数据 库 接口 。 

(3) 可 处 理 连 续 型 数值 数据 和 离散 型 (字符 型 和 日 期 型 ) 数 据 。 

(4) 具有 缺失 数据 处 理 、 噪 声 处 理 、 标 准 化 、 数 据 离散 化 、 属 性 构造 、 转 换 变量 、 拆 
分 数据 、 数 据 平滑 等 数据 预 处 理 功能 。 

(5) 具有 分 类 、 聚 类 、 关 联 和 可 视 化 等 数据 挖掘 功能 ， 包 括 多 种 机 器 学 习 算法 、 统 计 
技术 以 及 神经 网 络 技 术 。 

(6) 提供 算法 组 合 、 用 户 自 定义 算法 嵌入 、 算 法 参数 设置 功能 。 

(7) 能 够 生成 基本 报告 、 测 试 报告 、 输 出 格式 ， 实 现 模型 解释 、 模 型 比较 、 数 据 评分 
功能 ; 

(8) 具有 数据 、 挖 掘 过 程 及 挖掘 结果 可 视 化 功能 。 


2. Weka 的 文件 格式 


Weka 支持 三 种 数据 访问 方式 ， 即 访问 本 地 数据 文件 、 站 点 或 数据 库 。Weka 默认 使 用 
的 数据 文件 格式 为 ARFF(Attribute-Relation File Format)， 它 是 一 种 ASCII 文本 文件 格式 ， 


+» 所 


数据 授 杨 号 论 


1.7 给 


由 两 部 分 组 成 : 第 一 部 分 为 头 信息 (Head Information)， 包 括 对 关系 的 声明 和 对 属性 的 声明 ; 
二 部 分 为 数据 信息 (Data Information)， 即 数据 集中 的 数据 实例 (Instance)。 

上 了 表 1.1 感冒 类 型 诊断 数据 集 的 ARFF 文件 格式 。 其 中 : 
1) 头 信息 部 分 
@relation 定义 了 数据 集 的 名 称 。@attribute 定义 了 数据 集 的 属性 ， 它 包含 属性 名 和 属 
性 的 可 能 取 值 (或 属性 的 类 型 )。ARFF 文件 格式 常用 的 两 种 基本 数据 类 型 为 Nominal( 分 类 类 
型 ) 和 数值 类 型 ( 实 型 Real 或 整 型 mtegeD。 分 类 类 型 的 属性 枚 举 值 列 在 属性 名 的 后 面 ,由 一 
对 花 括 号 括 起 来 ， 如 Fever{Yes, No}; 数值 类 型 的 属性 ， 如 iris 数据 集中 的 sepallength 属 
性 ， 在 ARFF 文件 的 头 信息 部 分 表示 为 @attribute sepallength real。 

2) 数据 信息 部 分 

@data 定义 了 数据 集 的 开始 。 数 据 集 是 无 序 的， 实例 中 的 属性 值 用 逗号 “,” 分 隔 。 若 
属性 值 中 存在 缺失 数据 ， 在 缺失 处 用 问号 “? ”来 表示 。 


relation ColdIype 


attribute Increaced- 
eattribute Leukocytos 


attribute Sore-throat INo, Yes 

eattribute Cooling effect ‘Good, Not good , Unknown]} 
Gattribute Group {Yes,No} 

Gattribute Cold-type [Viral, Bacterial} 


No, Bacte eriall 
good ， No, Bactertal 
No, test ‘Not good’, No, 


1 
Sve Good, Yes en 
Yes, Yes, Yes, No, Yes, ?Not goodi ， No, Bacterial 


1.7 表 1.1 感冒 类 型 诊断 数据 集 的 ARFF 文件 格式 


Weka 除了 可 以 加 载 默认 的 ARFF 文件 之 外 ,还 可 以 加 载 .csv 文件 (可 由 Excel 和 Matlab 
导出 )、.names 和 .data 文件 (C4.5 原始 文件 ) 以 及 .bsi 文件 。Weka 自 带 三 种 文件 格式 转换 器 ， 
当 无 加 载 ARFF 文件 时 , 系统 会 自动 调用 文件 格式 转换 器 将 其 他 格式 文件 自动 转换 为 ARFF 


格式 。 


3. Weka 的 功能 


运行 Weka, 即 可 出 现 如 图 1.8 所 示 的 Weka GUI Chooser 窗口 ,用 户 可 以 选择 使 用 Weka 
的 几 种 界面 (GUD: Explorer、Experimenter、KnowledgeFlow 和 Simple CLI。 


© Weka GUIChooser [Eel x | 


Program Visualization Tools Help 
Appli cations 


| novledeeFlow | 


SimmlecI 上 


图 1.8 Weka GUI Chooser 窗口 


(1) Explorer: 这 是 数据 挖掘 用 户 最 常用 的 界面 。 在 该 界面 中 可 以 加 载 数据 集 ， 对 数据 
进行 预 处 理 ， 选 择 Weka 提供 的 各 种 数据 挖掘 算法 和 设置 参数 ， 执 行 数据 挖掘 ， 获 得 挖掘 
结果 ， 并 在 整个 过 程 中 进行 可 视 化 查看 。 

(2) Experimenter: 用 户 可 以 在 此 界面 中 同时 使 用 多 个 算法 对 一 组 (或 多 组 ) 数 据 进行 分 
析 ， 并 对 各 种 算法 结果 进行 比较 ， 从 中 选 出 最 佳 算 法 结果 。 还 可 以 将 一 项 任务 分 割 成 多 个 
子 项 ， 每 个 子 项 可 以 在 单独 的 计算 机 上 执行 ， 以 加 快 数据 挖掘 进程 。 

(3) KnowledgeFlow: 用 户 可 以 在 此 界面 中 ， 通 过 拖 动工 具 条 中 的 部 件 将 其 放置 在 画布 
中 。 这 些 部 件 包括 数据 源 、 预 处 理工 具 、 数 据 挖掘 算法 、 评 估 或 可 视 化 模块 。 在 画布 上 将 
这 些 部 件 组 合 在 一 起 便 形 成 一 个 数据 流 。 在 执行 递增 学 习 算法 时 ， 大 型 数据 集 就 可 以 被 分 
批 读 取 和 处 理 ， 从 而 解决 了 Explorer 将 数据 集中 所 有 数据 全 部 加 载 到 内 存 ， 对 内 存 要 求 高 
的 问题 。 

(4) Simple CLI: 其 他 三 个 界面 中 的 所 有 功能 均 能 够 在 该 界面 中 通过 输入 文本 命令 的 方 
式 来 运行 。 

数据 挖掘 的 主要 工作 在 Explorer 界面 中 完成 。 单 击 Explorer 按钮 ， 即 可 打开 Weka 
Explorer 界面 , 如 图 1.9 所 示 。 该 界面 中 有 6 个 选项 卡 ， 分 别 代表 了 Weka 支持 的 6 种 功能 ， 
包括 Preprocess ( 预 处 理 )、Classify( 分 类 )、Cluster( 聚 类 )、Associate( 关 联 分 析 )、Select 
attributes( 属 性 选择 ) 和 Visualize( 可 视 化 )。 


Eploer Ne el 
上 


| Visvalize AlL 


Status 
Weleone to the Neks Explorer oe 1 


图 1.9 Weka Explorer 界面 


@ ” 预 处 理 。 完 成 数据 加 载 、 缺 失 数 据 填补 、 属 性 过 滤 及 实例 过 滤 等 功能 。 经 过 预 处 
理 器 处 理 后 的 数据 集 ， 能 够 被 分 类 、 聚 类 、 关 联 分 析 、 属 性 选择 及 可 视 化 功能 所 
共享 ， 可 以 将 它们 各 自 的 算法 应 用 到 该 数据 集 ， 最 后 完成 数据 挖掘 任务 。 

@ 分类。 使 用 多 种 算法 实现 有 指导 的 学 习 训练 和 检验 ， 建 立 分 类 和 回归 模型 。 分 类 
器 包括 贝 叶 斯 分 类 器 、 树 、 规 则 、 函 数 、 元 学 习 、 懒 惰 分 类 器 和 杂项 类 分 类 器 ， 
实现 的 算法 近 50 多 种 ， 包 括 NativeBays 算法 、Id3 算法 、J48(C4.5) 算 法 、 决 策 树 
算法 、LinearRegression 函数 、 多 层 感 知 器 等 。 

@ ， 聚 类。 支持 著 名 的 聚 类 算法 ， 包 括 EM(Expectation-maximization， 最 大 化 期 望 ) 算 
法 、Cobweb 算法 、SimpleKMeans( 简 单 K- 均 值 ) 算 法 等 。 
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@ ”关联 分 析 。 支 持 包括 Apriori 算法 在 内 的 多 种 关联 分 析 算 法 。 

@ ”属性 选择 。 用 于 对 属性 进行 筛选 。 

@ 可 视 化 工具 。 可 以 实现 数据 挖掘 实验 前 的 数据 集 可 视 化 、 实 验 后 的 输出 结果 可 视 化 。 
下 面 通过 几 个 例子 来 说 明 如 何 使 用 Weka 软件 进行 数据 挖掘 实验 。 


1.9.2 ”使 用 Weka 建立 决策 树 模型 


【 例 1.4】 使 用 Weka 为 表 1.1 感冒 类 型 诊断 数据 集 建立 决策 树 模型 ,并 对 表 1.2 中 的 
未 知 类 别 的 实例 进行 分 类 。 


1. 准备 数据 


ColdType-training.arff 文件 为 训练 数据 集 ，ColdType-test.arff 文件 为 检验 数据 集 ， 分 别 
包含 表 1.1 和 表 1.2 中 的 数据 。 


2. 加 载 和 预 处 理 数据 


打开 Weka Explorer 界面 ， 切 换 到 Preprocess 选项 卡 ， 单 击 Open file 按钮 ， 加 载 
ColdType-training.arff 文件 ， 如 图 1.10 所 示 。 界 面 中 显示 了 该 数据 集 的 实例 个 数 为 10， 属 
性 数 为 8。 选中 某 个 属性 ， 若 该 属性 为 分 类 类 型 的 ， 界 面 能 够 显示 其 各 个 取 值 的 实例 个 数 ， 
如 图 1.10 中 Leukocytosis 的 属性 Yes 和 No 取 值 的 实例 个 数 都 为 5; 若 属 性 是 数值 型 的 , 则 
显示 其 最 大 最 小 值 、 均 值 和 标准 差 。 同 时 在 界面 的 右 下 方 还 可 视 化 显示 了 每 个 属性 取 值 的 
实例 中 ， 其 输出 属性 值 的 分 布 ， 如 图 1.10 中 Leukocytosis 属性 值 为 Yes 和 No 的 各 5 个 实 
例 中 ，Cold-type 输出 属性 值 的 分 布 分 别 为 41 和 2/3。 若 某 个 属性 被 选中 ， 界 面 上 还 给 出 了 
该 属性 的 类 型 、 缺 失 数据 个 数 、 取 值 个 数 和 具有 唯一 值 的 实例 个 数 。 


Preprocess [Classify [Cluster [Associate | Select attributes] Vlsuallze 


< = = 一 | 
Open f | [OpenD... ] | OpenD... |][ Genera... |[ tndo [Edit [save || 
Filter 
Apply || 
on Selected attribute 
dType-77797 Ne s Type: Noninal | 
Attributes: 8 (0%) Distinct: 2 ‘Unique: 0 (0%) | 
No. Label Count | 
All None | [ Invert | [Patterm 3 用 | 


Class: Cold-type (Noa) 7 visuelize Ai] 


人 
Remove selected attributes.] 所 


ey 


1.10 加 载 了 ColdType-training.arff 文件 后 的 Weka Explorer 界面 


在 该 界面 中 还 可 以 进行 属性 和 实例 的 筛选 ， 选 中 属性 列表 中 的 某 个 ( 些 ) 属 性 ， 单 击 
Remove 按钮 可 以 删除 属性 (注意 仅 为 筛选 , 不 会 删除 原始 数据 集中 的 属性 )。 单 击 Edit 按钮 ， 
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可 以 打开 Viewer 对 话 框 ， 如 图 1.11 所 示 。 在 该 对 话 框 中 可 以 对 数据 实例 进行 箭 选 ， 对 缺 
失 数据 进行 填补 ， 对 错误 数据 进行 修改 ， 对 属性 进行 重 命 名 ， 对 数据 进行 排序 等 。 

可 以 使 用 界面 上 的 Save 按钮 ， 将 CSV 文件 存 为 ARFF 文件 来 构造 ARFF 格式 文件 ， 
也 可 以 使 用 Undo 按钮 ， 撤 销 最 近 一 步 操作 。 


ER For] 

kelation: Coldlype-????? 

四 | ae Lovieocytosss [sever | heute oreet Sore-throat | cocling-effect Crow | catyme 
sel A ee ee ea? | "ie 

es 本 了 Be vz? 

3 undo Ye Ye food es WL 

a Yes No [Unenown oN 

局 Copy No Yes [Unnowm Jo Ba 

es Ye ot od Be 

7 ne Ye Pet good Ne Wi 

Some Ee No Good es NV: 

3 Clearsearch es Yes I cs Wiral | 

a 上 No Yes Not good Bacterial | || 

0D Delete selected instance 

| Delete AL selected instances Too | (Gow) Ccance | 
图 1.11 ColdType-training.arff 文 件 的 Viewer 对 话 框 
i 
3. 建立 分 类 模型 


切换 到 Classify 选项 卡 ， 单 击 Choose 按钮 ， 可 以 打开 分 类 器 选择 对 话 框 。 在 该 对 话 框 
中 能 够 看 到 Weka 支持 的 有 指导 学 习 算 法 。 通 过 展开 不 同 的 节点 可 以 选择 不 同 的 算法 。 本 
例 中 展开 trees 节点 ， 选 择 J48(C4.5 决策 树 算法 ， 详 见 第 2 章 )， 建 立 决策 树 模型 。 

在 开始 数据 挖掘 实验 前 ， 可 以 通过 单 击 Choose 按钮 右 方 的 文本 框 ， 打 开 算 法 参数 设置 
对 话 框 进行 参数 设置 , 还 可 以 在 Test options 面板 中 设置 检验 方式 ,本 例 中 选择 Use training 
set, 即将 训练 实例 作为 检验 实例 。 关于 Weka 中 检验 方式 设置 的 详细 内 容 见 第 2 章 。 在 Test 
options 面板 的 底部 有 一 个 More options 按钮 ， 单 击 该 按钮 ， 可 以 打开 Classifier evaluation 
options 对 话 框 ， 设 置 分 类 器 评估 选项 ， 最 常用 的 设置 是 选中 Output predictions 复 选 框 ， 使 
得 在 输出 结果 报告 中 出 现 预 测 输出 结果 。 

上 述 内 容 设 置 完毕 后 , 注意 保证 输出 属性 为 Cold-type( 系 统 默认 , 输出 属性 下 拉 列 表 显 
示 在 Test options 面板 的 下 面 )， 单 击 Start 按钮 ， 即 可 执行 数据 挖掘 ， 分 类 器 的 输出 结 
果 如 图 1.12 所 示 。 

输出 结果 中 给 出 了 决策 树 的 结构 。 决 策 树 共 有 6 个 节点 ， 其 中 4 个 节点 为 叶子 。 该 决 
策 树 的 检验 数据 为 训练 数据 ， 检 验 的 结果 为 分 类 正确 实例 数 (Correctly Classified Instances) 
为 9 个 ， 占 90%; 分 类 错误 的 实例 数 (Incorrectly Classified Instances) 为 1 个 ， 占 10%。 其 他 
数据 将 在 本 书 的 后 续 章节 中 陆续 详细 介绍 。 输 出 结果 窗口 最 下 方 的 Confusion Matrix， 即 混 
清和 矩阵 ， 它 给 出 了 实际 分 类 和 模型 计算 分 类 正确 和 错误 的 实例 数 。 如 图 1.12 中 的 混淆 矩阵 
(Confusion Matrix) 中 的 “5” 表 示 Viral 类 中 实际 有 的 5 个 实例 ， 模 型 也 将 其 正确 分 类 到 了 
Viral 类 中 ;混淆 矩阵 中 的 “4” 表 示 Bacterial 类 中 实际 有 的 4 个 实例 ， 模 型 也 将 其 正确 分 
类 到 了 Bacterial 类 中 ; 而 混淆 矩阵 中 的 “1” 则 表示 实际 在 Viral 类 中 1 的 实例 ， 被 模型 
错误 地 分 类 到 了 Bacterial 类 中 。 

通过 分 类 正确 率 值 可 以 对 建立 的 分 类 模型 的 质量 进行 初步 评估 , 因 本 例 中 该 值 为 90%， 
可 以 认为 模型 的 性 能 较 好 。 但 是 本 例 中 使 用 的 检验 数据 为 训练 数据 ， 所 以 对 于 模型 在 未 来 
的 未 知 数据 中 所 表现 的 性 能 ， 不 能 通过 现在 的 分 类 正确 率 进行 评估 。 
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为 了 能 够 直观 地 查看 决策 树 模型 , 可 以 在 Result list 列表 框 的 当前 数据 挖掘 会 话 条 目 上 
右 击 ， 从 弹出 的 快捷 菜单 中 选择 Visualize tree 命令 , 打开 如 图 1.13 所 示 的 Tree View 窗口 。 


4. 分 类 未 知 实例 


为 了 能 够 利用 所 建立 的 分 类 模型 分 类 未 知 实例 ， 可 以 在 执行 数据 挖掘 之 前 ， 将 Test 
options 检验 方式 设置 为 Supplied test set， 并 打开 ColdType-test.arff 文件 作为 检验 集 。 同 时 
在 Classifier evaluation options 对 话 框 中 选中 Output predictions 复 选 框 ， 使 得 在 输出 结果 中 
显示 预测 结果 。 单 击 Start 按钮 ， 即 可 执行 数据 挖掘 ， 分 类 未 知 实例 的 结果 如 图 1.14 所 示 。 
可 以 看 到 ， 表 1.2 中 的 两 个 未 知 分 类 的 实例 的 模型 分 类 结果 都 为 Viral。 


Classifier output 
Sore-throat = Yes 
1 Cooling-effect = Good: Viral (2.0) 


1 Cooling-effect = Not good: Bacterial (4.0/1.0) 
1 Cooling-etfect = Unknown: Bacterial (1.0) 


Nusber of Leaves : 4 


Size of the tree ; 6 


Time raken co build sodel: 0 seconds 


~ Evaluation on training aec 一 
一 -Summary 一 ~ 


Correctly Classified Instances 3 90 
1 


1ncorrectly Classified Instances 10 
Kappa atatistic 0.8 

Mean abaolure error 0.15 

Root zean squared error 0.2739 

Relative abaoluce error 31.0345 4 

Roor relative squared error 55.8694 二 

Toral Nusber of Instances 10 


w= Derailed Accuracy By class = 


TP Rare FPRare Precision Recall F-Measure ROC Ares Class 


0.833 0 1 0.833 0.909 0.938 Viral 
0.167 0.8 1 0.889 0.938 Bacterial 
Weighted Avg. 0.9 0.067 0.92 0.9 0.901 0.938 


w= Confusion Matrix wm 


ab <-- classified as 
Sl1la=Viral 
0 4 1 b= Bacterial 


1.12 感冒 类 型 诊断 分 类 模型 输出 结果 


Tree View 


1.13 ”感冒 类 型 诊断 决策 树 
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一 Predictions on test split 一 


inst#, actual, predicted, error, probability distribution 
1 2 1:Viral + 41 0 
2 2 1:Viral + 并 0 


图 1.14 表 1.2 中 两 个 未 知 实例 的 分 类 结果 


1.9.3 使 用 Weka 进行 聚 类 


【 例 1.5】 使 用 Weka 对 表 1.1 感冒 类 型 诊断 数据 集 进 行 聚 类 ， 并 解释 和 评估 聚 类 
结果 。 


1. 准备 数据 
使 用 ColdType.csv 文件 作为 数据 集 ， 它 包含 了 表 1.1 中 的 数据 。 
2. 加 载 和 预 处 理 数据 


打开 Weka Explorer 界面 ， 切 换 到 Preprocess 选项 卡 ， 单 击 。” [Gates 
Fa 
Open file 按钮 ， 加 载 ColdType.csv 文件 。 closterers 


3. 聚 类 全 | 

切换 到 Cluster 选项 卡 ， 单 击 Choose 按钮 ， 在 如 图 1.15 所 assstoe 
示 的 算法 选择 对 话 框 中 选择 SimpleKMeans( 简 单 K- 均 值 算 法 ) 选 :am 
项 。 再 单 击 Choose 按钮 右 方 的 文本 框 ， 打 开 算 法 参数 设置 对 话 ” 
框 ， 在 其 中 设置 聚 类 算法 的 相关 参数 。 本 例 中 设置 复 的 个 数 
(numClusters) 为 2， 其 他 参数 保持 默认 ， 如 图 1.16 所 示 。 在 执行 
聚 类 之 前 ， 设 置 Cluster mode 面板 中 的 评估 方式 为 Classes to clusters evaluation， 并 选择 分 
类 属性 为 Cold-type。 


图 1.15 选择 聚 类 算法 


veks, clusterers. Simpleklleans 


Chuster daa using eh means agorihm me 


e 
Capabilities 

displsystdDevs Ralse | 

astancefunction [ Choose JEuclideanDistance -人 

deontReplacelissineYalues Ralse S 


seed J10 


Ee ed Ce CE 


图 1.16 设置 聚 类 算法 的 参数 
单 击 Start 按钮 ， 执 行 聚 类 ， 结 果 如 图 1.17 所 示 。 
4. 解释 和 评估 聚 类 结果 


从 图 1.17 所 示 的 结果 中 可 以 看 到 ， 数 据 集 中 的 10 个 实例 被 聚 类 到 两 个 徐 中 ， 每 个 簇 
有 5 个 实例 。 通 过 实际 类 对 聚 类 结果 进行 评估 ， 发 现 聚 类 的 两 个 徐 Cluster 0 和 Cluster 1 分 
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1! ” 别 对 应 着 Viral 类 和 Bacterial 类 ， 其 中 原来 在 Viral 类 中 的 6 个 实例 中 的 5 个 被 聚 类 到 了 
! Cluster 0 中 , 而 原来 在 Bacterial 类 中 的 4 个 实例 和 Viral 类 中 的 1 个 实例 被 聚 类 到 了 Cluster 1 
! ”中 ， 即 有 一 个 实例 被 聚 类 到 了 错误 的 徐 ， 聚 类 错误 率 为 10%， 如 图 1.17 的 最 下 方 。 

| 为 了 能 够 更 好 地 研究 这 些 筷 ， 可 以 在 Result list 列表 框 的 本 次 数据 挖掘 会 话 条 目 上 右 
， 击 ， 从 弹出 的 快捷 菜单 中 选择 Visualize cluster assignments 命令 ， 打 开 Clusterer Visualize 
1 ， 秘 可 视 化 窗口 ， 如 图 1.18 所 示 。 在 该 窗口 中 将 X 轴 改 为 Cluster(Nom)， 将 Y 轴 改 为 
1 Cold-type(Nom)， 将 颜色 改 为 Cluster (Nom)， 拖 动 Jitter 滑 块 将 坐标 系 中 的 点 分 散 开 ， 以 便 
1 

1 

1 

1 

1 

1 


能 更 清楚 地 查看 结果 。 从 可 视 化 结果 中 可 以 看 到 ，Cluster 0 中 的 实例 都 来 自 Viral 类 ， 而 
Cluster 1 中 的 实例 有 4 个 来 自 Bacterial 类 ，1 个 来 自 Viral 类 。 那 么 这 个 本 来 属于 Viral 类 ， 
但 被 错误 地 分 到 了 簇 Cluster 1 中 的 是 哪个 实例 呢 ? 可 以 在 图 1.18 中 的 这 个 实例 点 上 单 击 ， 
打开 Weka:Instance info 窗口 ， 在 该 窗口 中 将 显示 这 个 实例 的 详细 信息 ， 如 图 1.19 所 示 。 


1.17 感冒 类 型 诊断 聚 类 结果 


Ys cold- type lon) - 四 | Weka Instance info l= = ME 


了 Select Instance - 


[Fopen [save | tter { 


图 1.18 感冒 类 型 诊断 聚 类 可 视 化 界面 图 1.19 聚 类 错误 的 实例 信息 


1.9.4 使 用 Weka 进行 关联 分 析 
【 例 1.6】 使 用 Weka 分 析 表 1.1 感冒 类 型 诊断 数据 集中 数据 的 关联 关系 。 


BD ~ 


| 第 1 吾 ， 认 识 交 要 孚 在 
[HILL 


1. 准备 数据 
使 用 ColdType.csv 文件 作为 数据 集 ， 它 包含 了 表 1.1 中 的 数据 。 
2. 加 载 和 预 处 理 数据 


打开 Weka Explorer 界面 ， 切 换 到 Preprocess 选项 卡 ， 单 击 Open file 按钮 ， 加 载 
ColdType.csv 文件 。 


3. 关联 分 析 


切换 到 Associate 选项 卡 , 单 击 Choose 按钮 ， 
在 算法 选择 对 话 框 中 选择 Apriori 算法 。 算 法 参数 
保持 默认 ， 其 中 规则 数 默认 为 10 条 ,最 小 置信 度 
为 0.9。 单 击 Start 按钮 ， 执 行 关联 分 析 ， 结 果 如 
图 1.20 所 示 。 


4. 解释 和 评估 结果 图 1.20 感冒 类 型 诊断 数据 集 的 关联 分 析 结果 

关联 分 析 发 现 了 10 条 最 佳 规则 ， 所 有 规则 的 置信 度 都 为 100%。 尽 管 这 些 关 联 规则 具 
有 较 好 的 置信 度 ， 但 是 多 数 都 是 没有 价值 的 关联 。 从 众多 规则 中 寻找 有 价值 的 规则 是 一 件 
有 挑战 性 的 工作 。 关 于 Apriori 算法 更 详细 的 内 容 参 见 第 2 章 。 


本 章 小 结 
本 章 内 容 概述 如 图 1.21 所 示 。 
据 控 握 的 定 概念 学 习 
| 1/ 有 纲 学 习 
| 是 f 有 指导 的 学 习 
机 器 学 习 3< 一 一 
/ 、 
天 S 的 取 类 | ee 
ECT 
准备 数据 平面 文件 
AR 一 
评估 结果 ED 
/ AU_ 现 出 
ms) | /Ce 本 
= 一 一 -| 于 胺 类 上 NN Hs 
i ee N 计 回 | 
应 用 领域 | 关联 关系 分 析 上 EDN 
一。 成 案例 \ \、 要 类 技术 
B= we DN 
一 使 用 Weka 建 立 决策 树 模型 
VE 一 
使 用 Weka 进 行 关 联 分 析 


1.21 第 1 章 内 容 导 图 
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数据 挖掘 是 基于 归纳 的 学 习 ， 它 通过 建立 模型 来 发 现 数据 中 隐 含 的 知识 或 模式 。 数 据 
挖掘 算法 创建 的 模型 是 对 数据 的 概念 化 ， 表 现形 式 可 以 是 白 盒子 的 树 和 规则 ， 也 可 以 是 黑 
盒子 的 网 络 和 方程 等 。 与 数据 挖掘 密切 相关 的 概念 有 机 器 学 习 、 数 据 查询 和 专家 系统 等 。 
机 器 学 习 是 模拟 人 类 的 学 习 方 法 ， 来 解决 计算 机 获取 知识 的 问题 。 机 器 学 习 分 为 有 指导 的 
学 习 和 无 指导 的 聚 类 ， 机 器 学 习 中 很 多 方法 被 用 在 数据 挖掘 中 。 与 数据 挖 所 期 望 从 数据 中 
发 现 潜 在 的 知识 不 同 ， 数 据 查 询 是 从 数据 中 找到 所 需要 的 显 式 的 浅 知 识 。 而 在 没有 高 质量 
和 充足 数据 的 情况 下 ， 需 要 借助 人 类 专家 的 知识 、 技 能 和 经 验 ， 创 建 带 “智能 ”的 计算 机 
软件 系统 一 一 专家 系统 ， 用 人 类 的 知识 而 不 是 数据 为 决策 建立 模型 。 

与 数据 挖掘 相关 的 另 一 个 概念 是 KDD( 知 识 发 现 )， 在 很 多 情况 下 两 者 可 以 互 用 。 但 实 
际 上 ， 数 据 挖掘 仅仅 是 KDD 处 理 过程 中 的 一 个 阶段 。 一 次 数据 挖掘 实验 需要 经 过 四 个 步 
又 ， 包 括 数 据 准备 、 数 据 挖掘 、 解 释 和 评估 结果 及 模型 应 用 。 在 进行 数据 准备 时 ， 可 能 需 
要 从 传统 的 关系 型 数据 库 、 数 据 仓库 或 平面 文件 中 抽取 数据 。 数 据 经 过 清洗 、 变 换 等 处 理 
后 再 提交 给 数据 挖掘 工具 。 在 进行 数据 挖掘 之 前 ， 需 要 选择 数据 挖掘 技术 或 算法 ， 并 设置 
参数 ， 再 执行 挖掘 操作 。 得 到 的 挖掘 结果 需要 作 进一步 的 解释 和 评估 ， 如 果 达 到 理想 的 性 
能 ， 可 以 应 用 建立 的 模型 解决 实际 问题 。 如 果 模 型 的 性 能 不 够 理想 ， 就 要 回 到 挖掘 数据 阶 
段 ， 甚 至 数据 准备 阶段 ， 重 新 进行 数据 实例 和 属性 的 选择 、 挖 掘 技术 和 算法 的 选择 以 及 参 
数 的 重新 设置 等 ， 之 后 进行 重复 实验 ， 直 到 得 到 理想 的 结果 为 止 ， 所 以 数据 挖掘 过 程 是 个 
多 次 迭代 的 过 程 。 

数据 挖掘 可 以 建立 有 指导 的 学 习 模型 和 无 指导 的 聚 类 模型 ， 可 以 进行 分 类 、 估 计 、 预 
测 、 聚 类 和 关联 分 析 。 分 类 和 估计 是 相似 的 ， 区 别 在 于 分 类 的 输出 属性 是 分 类 类 型 的 ， 而 
估计 的 输出 属性 是 数值 类 型 的 。 预 测 与 分 类 和 估计 是 相似 的 ， 区 别 只 是 预测 是 对 将 来 的 结 
果 而 不 是 当前 行为 进行 建 模 。 与 有 指导 的 学 习 不 同 ， 无 指导 聚 类 往往 没有 明确 的 目的 ， 只 
是 期 望 从 数据 中 找 出 隐藏 的 概念 结构 ， 或 找 出 数据 中 的 非典 型 实例 一 一 孤立 点 。 关 联 分 析 
的 目的 是 找 出 属性 之 间 的 关联 关系 ， 常 常用 在 购物 篮 分 析 中 ， 为 货架 摆 放 、 商 品 宣传 促销 、 
开发 交叉 市 场 等 提供 决策 支持 。 

数据 挖掘 技术 是 由 一 个 算法 和 一 个 知识 结构 来 定义 。 区 分 不 同 技术 的 一 般 特 征 是 看 学 
习 是 有 指导 的 还 是 无 指导 的 ， 以 及 它们 的 输出 是 分 类 类 型 的 还 是 数值 类 型 的 。 常 见 的 有 指 
导数 据 挖掘 技术 ， 包 括 决 策 树 、 产 生 式 规则 、 神 经 网 络 和 统计 方法 。 关 联 规则 是 在 市 场 应 
用 中 受 欢迎 的 一 种 技术 。 聚 类 技术 使 用 相似 度 度量 将 实例 分 成 不 相交 的 划分 一 一 艇 ， 聚 类 
技术 还 常常 用 于 对 有 指导 的 学 习 模型 进行 评估 。 

数据 挖掘 已 经 成 功 运用 于 多 个 领域 。 

Weka 是 一 个 基于 Java 的 开源 数据 挖掘 软件 ， 它 集成 了 大 量 数 据 挖掘 算法 ， 具 有 数据 
预 处 理 、 分 类 、 聚 类 、 关 联 分 析 、 属 性 选择 和 交互 式 可 视 化 等 功能 ， 其 操作 简单 。 易 学 易 
用 ， 可 作为 一 个 学 习 数 据 挖掘 的 入 门 软件 。 


习 题 


1. 对 于 以 下 问题 ， 考 虑 使 用 有 指导 的 学 习 方法 、 无 指导 的 聚 类 方法 和 数据 查询 方法 中 
的 哪 一 种 更 为 合适 。 若 使 用 有 指导 的 学 习 方 法 ， 请 确定 可 能 的 输入 属性 和 输出 属性 。 


队 > 
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(1) 决定 放假 是 否 回老家 。 

(2) 当 顾 客 访问 购物 网 站 时 ， 哪 些 商品 会 同时 购买 ? 

(3) 一 年 中 ， 职 业 为 教师 的 驾车 者 走 公交 车 道 而 接受 违章 处 罚 的 情况 。 

(4) 找 出 年 龄 、 职 业 、 受 教育 程度 、 收 入 、 工 作 时 间 、 婚 姻 状况 、 家 庭 成 员 人 数 等 与 
一 个 人 是 否 会 投资 股票 之 间 是 否 存在 联系 。 

2. 定义 “成 功 人 士 ” 的 概念 。 确 定 概念 中 的 属性 特征 ， 并 分 别 从 传统 角度 、 概 率 角 度 
和 样本 角度 描述 这 个 概念 。 

3. 为 表 1.1 感冒 类 型 诊断 数据 集 画 一 张 前 馈 神 经 网 络 图 。 

4. 假设 有 两 个 类 , 各 有 100 个 实例 。 第 一 个 类 中 的 实例 是 患 有 病毒 性 感冒 (Cold-type = 
Viral) 的 患者 数据 。 第 二 个 类 中 的 实例 是 患 有 细菌 性 感冒 (Cold-type = Bacterial) 的 患者 数据 。 
根据 以 下 规则 回答 下 面 的 问题 。 

IF Increased -1ym (淋巴 细胞 是 否 升 高 )= Yes & Sore-throat (是 否 有 咽 痛 症状 ) = No 

THEN Cold-type = Viral 

(rule accuracy = 80%, rule coverage = 60%) 

(1) 患 有 病毒 性 感冒 的 患者 中 有 多 少 人 淋巴 细胞 升 高 且 没有 咽 痛 症状 3 

(2) 患 有 细菌 性 感冒 的 患者 中 有 多 少 人 淋巴 细胞 升 高 且 没有 咽 痛 症 状 ? 

5. 在 不 使 用 Sore-throat( 咽 痛 ) 属 性 的 情况 下 , 使 用 Weka 软件 为 表 1.1 建立 一 棵 决策 树 ， 
解释 和 评估 结果 ， 并 对 表 1.2 中 的 实例 进行 分 类 。 

6. 访问 UCI 网 站 ,选择 一 个 数据 集 ， 使 用 Weka 软件 进行 有 指导 的 学 习 、 无 指导 的 聚 
类 和 关联 分 析 ， 并 解释 和 评估 结果 。 


2 三 


第 2 章 基本 数据 挖掘 技术 


本 章 要 点 提示 


基于 数据 挖 气 的 多 种 分 析 方法 ， 包 括 分 类 、 估 计 、 预 测 、 关 联 分 析 、 聚 类 和 复杂 数据 
类 型 挖掘 等 ， 产 生 了 多 种 数据 挖掘 技术 和 算法 。 这 些 技术 和 算法 多 数 都 基于 统计 技术 和 机 
器 学 习 技 术 ,经 典 的 算法 如 分 类 决策 树 算 法 C4.5, 关联 规则 算法 Apriori、 聚 类 算法 K-means， 
支持 向 量 机 (SVM)、EM 算法 ， 分 类 回归 树 Cart， 朴 素 贝 叶 斯 算法 ， 最 近邻 算法 (KENN)， 选 
代 分 类 Adaboost，Google 专用 算法 PageRank 等 。 本 章 将 介绍 三 种 数据 挖 握 技术 和 算法 ， 
在 第 7 章 中 将 专门 介绍 基于 统计 技术 的 其 他 算法 。 

本 章 2.1 节 介绍 有 指导 学 习 技 术 中 的 决策 树 算 法 ; 2.2 节 重 点 讨论 生成 关联 规则 技术 ; 
2.3 节 介 绍 无 指导 聚 类 和 区-means 算法 ; 2.4 节 将 针对 数据 挖 气 技术 和 算法 的 选择 ， 进 行 简 
单 的 讨论 。 


2.1 决策 树 


从 数据 产生 决策 树 的 机 器 学 习 技术 称 为 决策 树 学 习 ， 简 称 决 策 树 (Decision Tree)。 决 策 
树 是 数据 挖掘 中 最 常用 的 一 种 分 类 和 预测 技术 ， 使 用 其 可 建立 分 类 和 预测 模型 。 决 策 树 模 
型 是 一 个 树 状 结构 ， 树 中 每 个 节点 表示 分 析 对 象 的 某 个 属性 ， 每 个 分 支 表 示 这 个 属性 的 某 
个 可 能 的 取 值 ， 每 个 叶 节 点 表示 经 历 从 根 节点 到 该 叶 节点 这 条 路 径 上 的 对 象 的 值 。 模 型 通 
过 树 中 的 各 个 分 支 对 对 象 进行 分 类 ， 叶 节点 表示 的 对 象 值 表达 了 决策 树 分 类 的 结果 。 决 策 
树 仅 有 一 个 输出 ， 若 需要 有 多 个 输出 ， 可 以 建立 多 棵 独立 的 决策 树 以 处 理 不 同 输出 。 

决策 树 是 一 种 常用 的 有 指导 学 习 模型 , 其 中 C4.5 算法 是 面向 非 商 业 用 途 的 分 类 决策 树 
的 经 典 和 常用 算法 。C4.5 是 由 J 罗斯 ， 昆 兰 (J.Ross Quinlan) 在 ID3 的 基础 上 提出 的 ， 其 基 
本 思想 是 : 给 定 一 个 表示 为 “属性 - 值 ”格式 的 由 多 个 实例 构成 的 数据 集 ， 数 据 集 具 有 多 个 
输入 属性 和 一 个 输出 属性 ， 输 入 属性 表达 了 数据 集中 每 个 实例 的 某 个 方面 的 特征 或 行为 ， 
输出 属性 代表 每 个 实例 属于 且 仅 属于 的 那个 类 (Class)。 算 法 使 用 数据 集中 的 部 分 或 全 部 实 
例 作 为 训练 实例 建 模 ， 即 通过 已 知 分 类 类 别 的 数据 ， 进 行 有 指导 的 学 习 训练 ， 找 到 一 个 从 
属性 值 到 类 别 的 映射 关系 ， 即 分 类 模型 。 这 个 分 类 模型 可 以 用 于 分 类 或 预测 新 的 未 知 分 类 
的 实例 。 在 模型 应 用 之 前 ， 往 往 需要 进行 必要 的 剪 枝 和 检验 。 剪 枝 是 用 来 限制 树 的 规模 ， 
提高 模型 的 分 类 正确 率 ; 检验 是 评估 决策 树 模型 的 质量 的 重要 环节 ， 也 可 以 对 模型 分 类 未 
知 实例 的 能 力 进行 检测 。 

决策 树 的 优势 在 于 不 需要 任何 领域 知识 和 参数 设置 ， 适 合 于 探测 性 的 知识 发 现 。 

下 面 以 C4.5 算法 为 基础 ,介绍 决策 树 算法 的 一 般 过 程 、 算 法 中 的 关键 技术 以 及 决策 树 
模型 的 解释 方法 。 
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2.1.1 决策 树 算法 的 一 般 过 程 


以 C4.5 为 基础 ， 决 策 树 算法 的 一 般 过 程 如 下 。 

(1) 给 定 一 个 表示 为 “属性 - 值 ”格式 的 数据 集 T。 数 据 集 由 多 个 具有 多 个 输入 属性 和 
一 个 输出 属性 的 实例 组 成 。 

(2) 选择 一 个 最 能 区 别 工 中 实例 的 输入 属性 ，C4.5 使 用 增益 率 来 选择 该 属性 。 

(3) 使 用 该 属性 创建 一 个 树 节 点 ， 同 时 创建 该 节点 的 分 支 ， 每 个 分 支 为 该 节点 的 所 有 


(4) 使 用 这 些 分 支 ， 将 数据 集中 的 实例 进行 分 类 ， 成 为 细 分 的 子 类 。 

(5) 将 当前 子 类 的 实例 集合 设 为 T， 对 数据 集中 的 剩余 属性 重复 (2) 一 (3) 步 ， 直 到 满足 
以 下 两 个 条 件 之 一 时 ， 该 过 程 终止 ， 创 建 一 个 叶子 节点 ， 该 节点 为 沿 此 分 支 所 表达 的 分 类 
类 别 ， 其 值 为 输出 属性 的 值 。 

@ ”该 子 类 中 的 实例 满足 预定 义 的 标准 ， 如 全 部 分 到 一 个 输出 类 中 ， 分 到 一 个 输出 类 

中 的 实例 达到 某 个 比例 。 

@ ”没有 剩余 属性 。 

下 面 通过 一 个 例子 来 说 明 决 策 树 算法 的 一 般 过 程 。 

【 例 2.1】 给 定 如 表 2.1 所 示 的 数据 集 T， 建 立 一 棵 决策 树 ， 用 于 预测 某 个 学 生 是 否 
决定 去 打 篮 球 。 

表 2.1 中 包含 了 15 条 实例 ,分 别 表 示 一 个 学 生 一 天 的 学 习 结束 后 决定 是 否 去 打 篮球 的 
信息 。 每 个 实例 有 5 个 属性 , 分 别 表示 Weather( 当 天 的 天 气 ), 有 两 个 取 值 , 分 别 为 Sunny( 晴 
天 ) 和 Rain( 下 雨 ); Temperature( 气 温 )， 有 5 个 取 值 范围 ， 分 别 为 -10~~0'C、0~10'C、 
10 一 20C、20 一 30C 和 30 一 40C:， Courses( 当 天 上 完 的 课时 数 )， 范 围 为 1 一 8，Partner( 是 
否 有 球 友 )， 取 值 为 Yes 和 No， 分 别 表示 “有 ”和 “无 ”; Play( 是 否 去 打 篮 球 )， 取 值 为 


Yes 和 No， 分 别 表示 “是 ”和 “和 否 ”。 
表 2.1 一 个 假想 的 打 篮 球 数据 集 
No. Weather Courses Partner Pla 
1 Sunny Yes Yes 
2 Sunny No Yes 
3 Rain Yes Yes 
4 Sunny Yes Yes 
5 Rain No No 
6 Sunm Yes Yes 
Sunny No No 
8 Rain Yes Yes 
多 Rain Yes No 
10 Sunny Yes No 
11 Rain No No 


数据 挖掘 号 论 


续 表 


Temperaturerc 
Rain 


使 用 打 篮 球 数据 集中 的 几 个 实例 进行 有 指导 的 学 习 训练 ， 其 中 将 Weather、Temperature、 
Courses 和 Partner 作为 输入 属性 ，Play 作为 输出 属性 。 建 立 的 决策 树 如 图 2.1 所 示 。 


Sunny Rain 


x 
Yes No 


2.1 打 篮 球 决策 树 


2.1.2 决策 树 算法 的 关键 技术 


在 决策 树 算法 中 有 以 下 三 项 关键 技术 。 

(1) 选择 最 能 区 别 数据 集中 实例 属性 的 方法 。 

(2) 剪 枝 方法 。 

(3) 检验 方法 。 

以 上 三 项 关键 技术 决定 了 决策 树 建立 过 程 中 的 三 个 重要 环节 : 树 分 支 节点 的 创建 、 剪 
枝 和 检验 。 选 择 属性 作为 分 支 节点 的 方法 不 同 在 很 大 程度 上 决定 了 不 同 的 决策 树 算法 ， 如 
ID3 和 C4.5 算法 的 区 别 之 一 就 是 选择 属性 的 方法 不 同 。 剪 枝 方法 是 为 控制 决策 树 规模 、 优 
化 决策 树 而 采取 的 剪除 部 分 分 支 的 方法 。 检 验方 法 是 评估 决策 树 的 分 类 正确 程度 的 方法 。 
下 面 逐 一 介绍 这 三 种 方法 。 

1. 选择 最 能 区 别 数据 集中 实例 属性 的 方法 


C4.5 使 用 了 信息 论 (Information Theory) 的 方法 ， 即 使 用 增益 率 (Gain Ratio) 的 概念 来 选 
择 属性 ， 目 的 是 使 树 的 层次 和 节点 数 最 小 ， 使 数据 的 概 化 程度 最 大 化 。 

C4.5 选择 的 基本 思想 是 : 选择 具有 最 大 增益 率 的 属性 作为 分 支 节点 来 分 类 实例 数据 。 
要 了 解 增益 率 的 概念 ， 首 先 需要 了 解 信息 论 中 的 信息 焙 和 信息 增益 的 概念 。 
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1) 信息 和 
1948 年 ， 克 劳 德 "香农 (Claude Shannon) 提 出 了 “信息 烂 ”(Information Entropy) 的 概念 ， 
他 把 信息 变化 的 平均 信息 量 称 为 “信息 焙 ”， 和 解决 了 对 信息 的 量化 问题 。 在 信息 论 中 ， 信 
息 炉 是 信息 的 不 确定 程度 的 度量 。 信 息 的 粹 越 大 ， 信 息 就 越 不 容易 搞 清楚 ， 需 要 的 信息 量 
就 越 大 。 信 息 炳 越 大 ， 能 传输 的 信息 就 越 多 。 信 息 灼 计算 公式 如 下 : 


CD= -> p(x) logs(p(%,) C.D 


其 中 : H(x) 表 示 随 机 事件 x 的 焙 ; p 表示 出 现 的 概率 ; x 表示 某 个 随机 事件 x 的 所 有 可 能 
结果 。 因 式 中 对 数 的 底 为 2， 所 以 式 中 计算 得 到 的 焙 的 单位 是 比特 (bib。 

例如 ， 一 次 投 硬币 实验 ， 理 想 情 况 下 正 反 两 面 出 现 的 概率 分 别 为 12， 则 投 硬币 这 个 事 
件 的 粒 值 为 1， 如 式 (2.2)， 即 表示 可 以 用 平均 编码 长 度 为 bit 对 其 进行 编码 。 
1 和 


五 ( 投 硬 币 )= -js 目 十 Je， 外 三 (2.2) 


又 例如 ， 一 个 随机 事件 x， 有 三 种 可 能 的 取 值 :x1、x2 和 x3， 出 现 的 概率 分 别 为 1/4、 
1/2 和 1/4， 则 编码 平均 比特 长 度 为 3/2。 计 算 如 式 (2.3)。 


Hj)= -jms 日 + Dlog, [13e @) 三 -02 + 4] -了 03) 
言 息 业 可 以 直接 作为 信息 量 的 度量 ， 信 息 量 通 常 使 用 1x) 表示。 
2) 信息 增益 


信息 增益 (Information Gain) 表 示 当 x 取 属性 立 值 时 ,其 对 降低 x 的 粮 的 贡献 大 小 。 信息 
增益 值 越 大 ， 越 适 于 对 x 进行 分 类 。 如 投 硬 币 实验 中 ， 正 面 和 反面 出 现 都 为 整个 事件 的 信 
息 简 的 减少 的 贡献 为 12， 即 带 来 0.5bit 的 增益 。 

C4.5 使 用 信息 量 和 信息 增益 的 概念 计算 所 有 属性 的 增益 ， 并 计算 所 有 属性 的 增益 率 ， 


选择 值 最 大 的 属性 来 划分 数据 实例 。 
计算 属性 4 的 增益 率 的 公式 如 下 : | 
OO， (2.4) 
SplitsInfo( A) 
其 中 ， 对 于 一 组 I 实例， 计算 Gain(4) 的 公式 如 下 : 
Gain(A) = Info(4)— Info(1. 4) (2.5) 


根据 信息 箭 的 公式 ， 可 以 很 容易 地 得 出 Info(D 和 Info(1.4)。Info(D 为 当前 数据 集 所 有 实 
例 所 表达 的 信息 量 , Info(7.4) 为 根据 属性 4 的 个 可 能 取 值 分 类 了 中 实例 之 后 所 表达 的 信息 
量 。 计 算 mfo(D 和 Info(1,4) 的 公式 如 式 (2.6) 和 式 (2.7) 所 示 。 


志 出 现在 类 中 的 实例 个 数 ， 『 出 现在 ;类 中 的 实例 个 数 
DCD) =- - 乞 ”所 有 实例 总 数 ve, 所 有 实例 总 数 ] (8) 
Rd 四- 志 出 现 的 类 中 的 实例 个 数 Uupog 基 


气 所 有 实例 总 数 
其 中 ，n 为 实例 集合 7 了 被 分 为 可 能 的 类 的 个 数 ， 大 为 属性 4 具有 大 个 输出 结果 。 

最 后 : SplitsInfo(4) 是 对 4 属性 的 增益 值 的 标准 化 ， 目 的 是 消除 属性 选择 上 的 偏差 
(Bias), 即 在 所 有 实例 的 属性 4 的 取 值 只 有 一 个 时 , 该 属性 总 被 优先 选取 的 情况 。 计算 Splits 


:3 缠 


数据 挖掘 号 论 


Info(4) 的 公式 如 式 (2.8) 所 示 。 
、 出 现在 j 类 中 的 实例 个 数 ] 出 现在 /类 中 的 实例 个 数 

Splis Info( 人 = 和 所 有 实例 总 到 ve 所 有 实例 总数 | 

现在 使 用 式 (2.4) 计 算 增 益 率 的 公式 ， 完 成 例 2.1 中 提出 的 任务 。 

创建 根 节点 ， 有 4 个 输入 属性 可 选 ， 分 别 计算 这 4 个 属性 的 增益 率 值 。 现 在 以 
Weather( 天 气 ) 为 例 介绍 计算 过 程 。 图 2.2 给 出 了 使 用 Weather 作为 根 节点 的 局 部 决策 树 。 

图 2.2 中 表示 当 Weather 作为 根 节点 时 , 因 该 属性 有 两 个 取 值 , 故 按 照 这 两 个 取 值 创建 
了 两 个 分 支 : Sunny 和 Rain， 这 两 个 分 支 将 数据 集中 所 有 实例 分 为 两 类 ， 第 一 类 中 有 5 个 
Play 属性 为 Yes 的 实例 ，3 个 Play 属性 为 No 的 实例 ， 第 二 类 中 有 2 个 Play 属性 为 Yes 的 
实例 ，5 个 Play 属性 为 No 的 实例 。 

(1) Info(D=-(7/15log2(7/15)+8/15logs(8/15))= 0.996792~0.9968 

(2) Info(L.Weather)= 8/15Info(Sunny)+ 7/15Info(Rain)= 0.9118 
其 中 :Info(Sunny)= - (5/8logs(5/8) + 3/8log>(3/8)) = 0.9544 

Info(Rain)=-(2/7log2(2/7) + 5/7logx(5/7)) = 0.8631 
(3) SplitsInfo(Weather)= (8/1Slog(8/15) + 7/1Slogx(7/15)) = 0.9968 
(4) Gain(Weather) = Info(D- Info(.WeathenD 一 0.9968-0.9118 = 0.085 
(5) GainRatio(Weather) = Gain ( Weather) / SplitsInfo(Weather) 
二 0.085 / 0.9968 = 0.085 

其 他 两 个 分 类 类 型 的 属性 计算 过 程 同 理 。 但 是 数值 型 属性 Courses 的 增益 值 如 何 使 月 
式 (2.4) 计 算得 到 呢 ? C4.5 算法 对 这 些 数 值 型 数据 进行 排序 ， 计 算 每 个 可 能 的 二 元 分 裂 点 
(Binary Splits) 的 增益 率 值 来 离散 化 这 个 属性 值 。 例 2.1 中 的 Courses 属性 的 排序 结果 如 
表 2.2 所 示 。 


(2.8) 


表 2.2 打 篮 球 数据 集中 数值 型 属性 Courses 的 排序 结果 


计算 每 个 可 能 分 裂 点 的 增益 率 值 ， 即 计算 1 和 2 之 间 ，2 和 3 之 间 ……， 直 到 7 和 8 
之 间 的 二 元 分 裂 增益 率 值 。 这 样 ， 每 个 分 裂 点 被 看 作 是 一 个 具有 两 个 值 的 独立 属性 。 从 
表 2.2 很 直观 地 发 现 ，“5” 这 一 课时 数 应 该 是 最 好 的 分 裂 点 。 

通过 计算 4 个 属性 的 增益 率 值 后 ， 的 确 发 现 Courses 属性 的 三 5 和 5 分 裂 点 处 具有 最 
佳 增益 率 值 ， 为 0.4457。 图 2.3 给 出 了 使 用 Courses 作为 根 节 点 的 局 部 决策 树 。 


Sunny Rain 5 >5 
~ 一 > 

SYes 2Yes 7 Yes 0 Yes 

3No 5No 3 No 5No 


图 2.2 Weather 作为 根 节点 的 局 部 决策 树 图 2.3 ”Courses 作为 根 节点 的 局 部 决策 树 
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继续 在 分 成 的 两 个 类 的 实例 集合 中 计算 三 个 分 类 类 型 属性 的 增益 率 值 和 除了 课时 数 为 
5 的 分 裂 点 之 外 的 Courses 属性 其 他 分 裂 点 上 的 增益 率 值 ， 继 续 创 建 节点 ， 直 到 某 子 类 中 的 
实例 满足 预定 义 的 标准 ， 如 该 子 类 实例 的 Play 输出 属性 值 全 部 为 Yes 或 No， 即 分 到 一 个 
输出 类 中 ， 或 没有 剩余 属性 可 以 作为 分 支 节 点 为 止 。 
完整 的 决策 树 如 图 2.4 所 示 ， 该 图 与 图 2.1 有 些 不 同 ， 主 要 体现 在 叶子 节点 处 。 图 2.1 
的 叶 节 点 表达 了 输出 结果 一 一 分 类 属性 Play 是 Yes 还 是 No， 即 是 去 打 篮 球 还 是 不 去 打 篮 
球 ， 是 通常 的 决策 树 表达 方法 。 而 图 2.4 是 分 析 了 分 支 节点 的 分 类 情况 ， 即 在 分 支 节点 分 
类 的 子 类 中 取 各 类 输出 值 的 实例 个 数 。 将 图 2.4 变 为 图 2.1 的 形式 , 需要 取 沿 着 该 分 支 分 成 
的 子 类 中 出 现 较 多 的 输出 值 作为 最 终 分 类 结果 ， 即 2 Yes 和 3 No 的 子 类 中 出 现 较 多 的 输出 
值 为 No， 故 沿 着 这 条 路 径 的 实例 被 全 部 分 为 Play 为 No 的 一 类 ， 即 不 去 打 篮 球 。 
【 例 2.2】 使 用 表 2.1 所 示 的 数据 集 T， 使 用 Weka 软件 ， 应 用 C4.5 算法 建立 决策 树 ， 
用 于 预测 某 个 学 生 是 否决 定 去 打 篮 球 。 
使 用 Weka 软件 ,选择 C4.5 算法 (C4.5 算法 在 Weka 中 名 为 148) 建 立 决策 树 的 步 又 如 下 。 
(1) 加 载 名 为 PlayBasketball.csv 打 篮 球 数据 集 。 
(2) 切换 到 Classify 选项 卡 , 单 击 Choose 按钮 , 打开 分 类 器 算法 选择 对 话 框 , 展开 trees 
节点 ， 选 择 J48 选项 ， 如 图 2.5 所 示 。 


[Classifier 


[Evera 四 
昕 旧 classifiers F 
unctions 

| 
| 
一 、 人 、 | 
3 >5 | 
\、 引 
0 Yes | . | 
5No | 3 | 

. 

中 . 

1 . 

| . 

~ ~、 | » NBTree 
Sunny Rain st | 
2 SN 中 . 时 
5 Yes 2 Yes [a 和 fllter |[ cl il 
0 No 3 No | 一 cass | 
2.4 ”Courses 作为 根 节点 的 完整 决策 树 2.5 在 Weka 中 选择 C4.5(J48) 决 策 树 算法 


(3) 在 Test options 面板 中 选择 Use training set 选项 ， 设 置 检验 集 为 训练 集 。 单 击 该 
板 下 方 的 下 拉 按 钮 ， 设 置 输出 属性 为 Play， 如 图 2.6 所 示 。 


(Non) Veather 
(Non) Teaperature 


(Nun) Courses 
(Non) partner 
| (Non) Play 


2.6 ”选择 输出 属性 为 Play 


a5 帮 


数据 挖掘 号 论 


(4) 单 击 图 2.6 中 的 More options 按钮 ， 打 开 Classifier evaluation options 对 话 框 ， 选 中 
Output predictions 复 选 框 ， 如 图 2.7 所 示 。 表示 将 在 输入 结果 中 显示 作为 检验 集 实例 的 计算 
输出 。 

(5) 单 击 Start 按钮 ， 开 始 有 指导 的 学 习 训练 。 输 出 结果 如 图 2.8(a) 和 2.8(b) 所 示 。 从 
2.8(a) 中 可 以 看 到 如 下 信息 。 

@ 该 决策 树 是 剪 枝 过 的 “J48 pruned tree”。 

e@ ”生成 了 这 棵 决策 树 的 规则 ， 用 另外 一 种 方式 表达 分 类 模型 的 结果 。 

e@ 在 训练 集 上 进行 的 检验 评估 ， 输 出 显示 了 每 个 检验 集 实 例 的 实际 值 和 预测 值 的 对 

比 情况 ， 其 中 error 列 出 现 “+”， 表 示 该 实例 的 预测 值 和 实际 值 不 符 。 

从 图 2.8(b) 中 可 以 看 到 如 下 信息 。 

e@ ”检验 集 分 类 正确 率 为 86.67%， 错 误 实例 数 为 2 个 。 

@ ”混淆 矩阵 Confusion Matrix 显示 出 有 5 个 实际 为 Yes 类 的 实例 被 正确 分 类 到 Yes 

类 , 有 8 个 实际 为 No 类 的 实例 被 正确 分 类 到 No 类 , 有 2 个 实际 为 Yes 类 的 实例 
被 预测 为 No。 


Classifier output 
Test mode:evaluare on training dara 


~ Classifier model (full training ser) = 一 
48 pruned tree 
Courses <= 5 


| Weather = Sunny: Yes (5.0) 
1 Weacher = Rain: No (5.0/2.0) 


Courses > 5: Ho (5.0) 


Womber of Lesves : 3 


© classifier evaluation options én] sisneetheer: 5 


Butput nodei] 


Time taken to build model: 0 seconds 


= Predicticns on training set 一 ~ 


insch, = actusl, predicted, error, probability discribution 
1:Yes 和 “1 


团 Output per-class stats 


同 output entropy evaluation neasures 


| 园 output confusion natrix 1 1:Ye: o 
2 1:Yes 1:Yes 1 0 
回 Store predictions for visualization 3 l:Yes ao 0.4 "0.6 
| 4 liYes 1:Yes 1 0 
网 output predictions s 2:No Ho , 
6 1:Yes 1:Yes 1 0 
Output additional attributes 和 2:No 233o 0 "1 
| s Yes No + 0.4 «0.6 
加 cost-sensitive evaluation | Set 和 pe Eigend| 0 1 
I 10 2:lo 2:lo 0 电 
1 2:lo 2:lo 0.4 «0.6 
Randon seed for XVal / % Split [1 | pe He 二 2 
ee 13 2:No 2:No 0 1 
回 Preserve order for % Split i ee se le 和 
1s 2 0.4 “0.6 
回 output source code [WekaClassi 时 


[ x ] 


图 2.7 在 输出 结果 中 显示 检验 集 实例 的 预测 值 图 2.8 输出 结果 


(6) 在 Result list(right-click for options) 窗 格 的 本 次 数据 挖掘 会 话 条 目 上 右 击 , 在 弹出 的 
快捷 菜单 中 选择 Visualize tree 命令 ,如 图 2.9 所 示 ， 显 示 决 策 树 ， 如 图 2.10 所 示 ， 与 例 2.1 
中 建立 的 决策 树 相同 。 
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=== Evaluation on training set === 
= Surmary === 


Correctly Classified Instances 86.6667 $ 


Incorrectly Classified Instances 13.3333 $ 


Ps tatiatie ep 
Mean absolute error 0.16 
Root mean squared error 0.2828 
Relative absolute error 32.126 4 
Root relative squared error 56.6929 $ 
Total Nurber of Instances 15 


-一 Detailed Accuracy By Class -一 


TB Rate EPRate Precision Recall F-Measure ROC Area Class 


0.714 0 1 0.714 0.833 0.946 Yes 
1 0.286 0.8 1 0.889 0.946 No 
Weighted Avg. 0.867 0.152 0.893 0.867 0.863 0.946 


=== Confusion Matrix === 


ab <-- classified as 
521a=Yyes 


08lb=No 


(b) 
2.8 输出 结果 ( 续 ) 


Tree Viev 


Viewin main window 
View in separate window 


Save result buffer 
Delete result buffer 
Load model 

Save model 


Re-evaluate model on current test Set 
= Sunny =Rain 
Visualize classifier errors 


Visualize tree 
Visualize margin curve 


Visualize threshold curve ， 
Cost/Benefit analysis » 
Visualize cost curve » 
2.9 结果 选项 菜单 2.10 ”Weka J48 建立 的 打 篮球 决策 树 


2. 决策 树 剪 枝 


从 图 2.8(a) 中 可 以 看 到 该 决策 树 是 经 过 前 枝 的 。 剪 枝 (Pruning) 是 为 控制 决策 树 规模 ， 优 
化 决策 树 而 采取 的 剪除 部 分 分 支 的 方法 。 剪 枝 分 为 两 种 : 预 剪 枝 (Pre-Pruning) 和 后 剪 枝 
(Post-Pruning)。 

预 前 枝 是 在 树 的 生长 过 程 中 设 定 停止 生长 指标 ， 一 般 是 指定 树 的 最 大 深度 和 当前 实例 
集合 中 实例 数量 小 于 预先 设 定 的 阔 值 ， 当 达到 该 指标 时 就 停止 继续 分 支 ， 使 决策 树 不 能 充 
分 生长 ， 从 而 达到 剪 枝 的 目的 。 预 前 枝 最 大 的 问题 是 最 大 深度 的 预先 指定 是 否 将 会 直接 导 
致 因 限制 树 的 生长 影响 决策 树 的 质量 ， 使 之 不 能 更 加 准确 地 对 新 数据 实例 进行 分 类 和 


预测 。 
37 二 


数据 授 杨 号 论 


后 剪 枝 是 指 在 完全 生长 而 成 的 决策 树 的 基础 上 ， 根 据 一 定 的 规则 标准 ， 剪 掉 树 中 不 具 
备 一 般 代表 性 的 子 树 , 取而代之 的 是 叶子 节点 , 进而 形成 一 棵 规模 较 小 的 新 树 。C4.5、ID3、 
CART 算法 采用 的 就 是 后 剪 枝 技 术 。 其 中 C4.5 采用 一 种 称 之 为 悲观 剪 枝 法 (Pessimistic Error 
Pruning，PEP) 的 方法 进行 后 剪 枝 。PEP 被 认为 是 目前 决策 树 后 剪 枝 方法 中 精度 较 高 的 技术 
之 一 ， 它 使 用 训练 集 生成 决策 树 的 同时 又 将 其 作为 剪 枝 集 ， 剪 枝 和 检验 同时 进行 。 在 剪 枝 
的 过 程 中 ， 递 归 地 估算 每 个 分 支 节点 所 覆盖 的 当前 数据 集 实 例 的 错误 率 。 若 在 某 个 分 支 节 
点 处 前 枝 ， 则 剪 枝 后 这 个 分 支 节点 会 变 为 叶 节 点 ， 该 叶子 节点 被 分 类 到 分 类 错误 率 最 低 的 
分 类 ， 然 后 比较 剪 枝 前 后 该 节点 的 错误 率 来 决定 是 否 进行 剪 枝 。 

后 剪 枝 的 计算 量 代价 比 预 剪 枝 方法 大 得 多 ， 特 别 是 在 大 数据 集中 。 而 对 于 小 数据 集 的 
情况 ， 后 前 枝 方法 优 于 预 剪 枝 。 

【 例 2.3】 使 用 来 自 UCI 的 Credit Screening Databases 数据 集 , 应 用 Weka 的 J48(C4.5) 

算法 建立 两 棵 决策 树 ， 分 别 为 剪 枝 和 未 剪 枝 的 。 


图 说 明 : Credit Screening Databases 数据 集 的 全 名 为 Japanese Credit Screening 
Database， 包 含 690 个 申请 信用 卡 的 客户 信息 ， 其 中 307 个 是 申请 被 接受 了 
的 客户 信息 ，383 个 是 申请 被 拒绝 了 的 客户 信息 。 数 据 集 有 15 个 输入 属性 和 
1 个 输出 属性 ， 输 出 属性 用 “+ ”表示 信用 卡 申 请 被 接受 ， 用 “- ”表示 被 
拒绝 。 所 有 输入 属性 名 和 值 都 用 无 意义 的 符号 表示 ， 以 保护 机 密 数 据 。 


J48 默认 情况 下 对 决策 树 采 取 后 剪 枝 技术 ， 若 要 将 其 设置 为 未 剪 枝 的 ， 单 击 Classify 选 
项 卡 中 的 Choose 按钮 后 面 的 文本 框 ， 在 打开 的 参数 设置 对 话 框 中 选择 ， 如 图 2.11 所 示 。 
剪 枝 和 未 剪 枝 的 分 类 结果 如 图 2.12 和 图 2.13 所 示 。 可 以 看 到 未 剪 枝 的 决策 树 尽管 得 到 了 更 
高 的 分 类 正确 率 ， 但 是 因 其 决策 树 宽度 较 大 、 分 支 较 多 ， 对 于 结果 的 解释 能 力 较 弱 ， 分 类 
的 一 般 化 程度 较 低 。 


veka. classifiers. trees. J48 
About 


Class for generating a pruned of unpruned C4. [ Nore, ] 
Capabilities | 
binarySplits [False ~ 
confidenceFactor |0. 25 

debus |Ealse ~ 

ainlfumobj 2 

mumFolds |3 
TeducedErrorPruning [Ealse ~ 
saveInstanceData |Ealse ~ 

Seed 1 
subtreeRaising [True = 
unpruned [Ealse 了 
[open ] 攻 Sara | Ok [| Cancel | 


图 2.11 设置 “未 剪 枝 的 ” 
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Tree Viev 
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2.12 ”经 过 剪 枝 的 决策 树 
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2.13 ”未 经 过 剪 枝 的 决策 树 


3. 决策 树 检验 


像 其 他 的 有 指导 学 习 模 型 一 样 ， 决 策 树 也 需要 采取 一 些 检 验方 法 对 其 分 类 的 正确 程度 
进行 评估 。 检 验方 法 有 多 种 ，Weka 提供 了 以 下 四 种 检验 方法 。 

(1) use training set: 使 用 在 训练 集 实例 上 的 预测 效果 进行 检验 。 

(2) supplied test set: 使 用 另外 提供 的 检验 集 实例 进行 检验 ， 此 时 需要 单 击 Set 按钮 来 
选择 用 来 检验 的 数据 集 文件 。 

(3) cross-validation: 使 用 交叉 验证 (Cross Validation) 来 检验 分 类 器 ， 所 用 的 折 数 填 在 
Folds 文本 框 中 。 

(4) percent split: 百分比 检验 。 从 数据 集中 按 一 定 百分比 取出 部 分 数据 作为 检验 集 实例 
用 ， 根 据 分 类 器 在 这 些 实例 上 的 预测 效果 来 检验 分 类 器 的 质量 。 取 出 的 数据 量 由 “%” 栏 
中 的 值 决 定 。 

其 中 ,交叉 检验 (简称 CV) 是 用 来 检验 分 类 器 性 能 的 一 种 最 为 常用 的 统计 分 析 方 法 ， 其 
基本 思想 是 : 将 数据 集 分 为 训练 集 和 检验 集 ， 划 分 方法 不 同 ， 存 在 不 同 的 CV 检验 方法 。 

Q Hold-Out 方法 : 将 数据 集 随 机 划分 为 训练 集 和 检验 集 。 此 方法 处 理 简单 , 但 是 其 随 
机 性 地 划分 训练 集 和 检验 集 ， 并 未 达到 交叉 检验 的 目的 ， 其 检验 结果 受 数 据 集 随 机 分 组 的 
影响 较 大 ， 所 以 这 种 方法 的 检验 效果 并 不 具有 说 服 力 。 

@ k- 折 交叉 检验 (上 -CV): 将 数据 集 分 成 组 (一 般 均 分 ， 且 大 于 等 于 2)， 将 每 组 数据 
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分 别 做 一 次 检验 集 对 由 其 余 上 1 组 数据 作为 训练 集 建立 的 模型 进行 检验 ， 将 这 个 检验 的 
检验 集 分 类 正确 率 的 平均 值 作为 该 模型 的 平均 性 能 度量 。k- 折 交叉 检验 可 以 有 效 地 避免 模 
型 训练 不 够 或 训练 过 度 状 态 的 发 生 , 检验 结果 比较 有 说 服 力 。Weka 中 的 交叉 检验 方法 即 为 
记 折 交叉 检验 。 

@ Leave-One-Out 交叉 检验 (LOO-CV): 设 数据 集 有 个 实例 , 则 LOO-CV 即 为 n-CV。 
它 是 将 每 个 实例 单独 作为 验证 集 ， 对 由 其 余 n-1 个 实例 作为 训练 集 建立 的 模型 进行 检验 ， 
将 这 n 个 检验 的 检验 集 分 类 正确 率 的 平均 值 作为 该 模型 的 性 能 度量 。 此 方法 因 其 每 次 建 模 
都 使 用 了 几乎 所 有 的 数据 集 实例 ， 其 分 布 与 完整 数据 集 相 同 ， 故 模型 结果 更 为 可 靠 。 同 时 
训练 和 检验 过 程 中 无 随机 变量 的 影响 ， 检 验 结果 稳定 。 但 这 种 交叉 检验 方法 因 建 立 的 模型 
数量 与 数据 集 实例 个 数 相 同 ， 成 本 太 大 ， 在 实际 应 用 中 k- 折 交叉 检验 更 具 优势 。 


2.1.3 决策 树 规则 


决策 树 的 每 一 条 路 径 都 可 以 使 用 一 条 产生 式 规则 来 解释 ， 整 个 决策 树 可 以 被 映射 为 一 
组 规则 。 由 于 规则 的 可 解释 性 和 可 理解 性 更 强 ， 所 以 规则 比 树 更 具有 吸引 力 。 

在 图 2.8(a) 中 ， 决 策 树 建立 完成 的 同时 ，Weka 也 给 出 了 相应 的 规则 : 

Courses<5 

| Weather = Sunny: Yes (5.0) 

| Weather = Rain: No (5.0/2.0) 

Courses >5: No (5.0) 

其 中 No(5.0/2.0) 表 示 在 Courses 夺 5 且 Weather = Rain 的 条 件 下 ， 分 类 器 将 实例 分 类 到 
“不 去 打 篮球 ”一 类 ， 即 Play = No。 沿 着 这 个 路 径 的 实例 个 数 一 共 有 5 个 ， 则 它们 全 部 被 
分 类 到 “不 去 打 篮 球 ” 一 类 ， 但 其 中 有 2 个 实例 被 分 类 错误 。 

可 以 将 以 上 Weka 产生 的 规则 翻译 为 以 下 三 条 产生 式 规 则 。 

(1) IF Courses <= 5 and Weather = Sunny THEN Play = Yes 

正确 率 : 5/5= 100% 覆盖 率 : 5/7=71.4% 

(2) IF Courses <= 5 and Weather = Rain THEN Play = No 

正确 率 ，3/5 = 60% 覆盖 率 : 3/8 = 37.5% 

(3) IF Courses > 5 THEN Play = No 


正确 率 : 5/5=100% 覆盖 率 : 5/8= 62.5% 

然而 在 决策 树 的 规模 较 大 、 宽 度 较 宽 时 ， 规 则 系统 的 复杂 度 也 会 提高 ， 其 解释 能 力 会 
下 降 。 所 以 在 将 树 映射 为 规则 之 前 ， 需 要 做 的 重点 工作 是 剪 枝 ， 或 在 规则 生成 后 ， 简 化 或 
淘汰 已 有 规则 。 例 如 ， 若 出 现 如 下 一 条 规则 : 


IE Courses <= 5 and Weather = Sunny and Temperature = 20~30'C THEN Play = Yes 


正确 率 : 2/2 = 100% 覆盖 率 : 2/7= 28.6% 

则 此 时 可 将 其 简化 为 上 面 三 条 产生 式 规则 中 的 第 (1) 条 ， 在 正确 率 没 有 降低 的 前 提 下 ， 
规则 更 加 简练 ， 履 盖 了 更 一 般 的 情况 ， 这 种 裁剪 是 可 行 的 和 适当 的 。 实 际 上 ， 大 多 数 决策 
树 算法 都 能 够 自动 化 规则 的 创建 和 简化 过 程 。 
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2.1.4 ”其 他 决策 树 算法 


以 上 是 以 C4.5 为 基础 的 决策 树 算法 的 一 般 过程 和 关键 技术 , 它 的 前 身 是 ID3 算法 .ID3 
算法 是 J 罗斯 。 昆 兰 在 1986 年 提出 的 ， 与 C4.5 算法 最 大 的 不 同 是 ，ID3 使 用 信息 增益 而 
不 是 信息 增益 率 来 选择 分 裂 属 性 ， 而 属性 取 值 最 多 的 属性 往往 信息 增益 最 大 ， 但 它 并 不 一 
定 是 最 优 分 裂 属性 。 其 次 ，C4.5 对 ID3 在 其 他 方面 也 进行 了 改进 ， 如 在 建立 决策 树 的 过 程 
中 剪 枝 、 能 够 对 连续 的 数值 属性 进行 离散 化 处 理 ( 如 Courses 属性 )、 能 够 处 理 缺 失 数据 等 ， 
所 以 ID3 算法 最 终 被 C4.5 所 取代 。 

1984 年 雷 奥 ， 布 莱 曼 (Leo Breiman) 等 人 提出 了 CART(Classification And Regression 
Tree， 分 类 回归 树 )， 详 细 内 容 参见 “第 7 章 统计 技术 ”。CART 因 其 在 商业 应 用 方面 所 得 
到 的 普遍 关注 ， 而 应 用 相当 广泛 。CART 与 C4.5 非常 相似 ,但 是 其 叶子 节点 为 数值 型 数据 而 
不 是 分 类 类 型 数据 ， 其 树 的 分 支 全 部 为 二 元 分 裂 ， 剪 枝 需要 专门 的 检验 集 而 不 是 使 用 训练 集 
实例 。 

戈 登 V. 凯 斯 (Gordon V. Kass)1980 年 提出 了 CHAID 决策 树 算法 。CHAID 与 C4.5 和 
CART 不 同 ， 它 要 求 所 有 属性 为 分 类 类 型 属性 ， 且 使 用 x 显著 性 检验 来 选择 分 裂 属 性 。 
CHAID 因 具 有 统计 学 特色 ， 而 在 SAS 和 SPSS 等 商业 统计 软件 包 中 得 到 很 好 的 应 用 。 


2.1.5 决策 树 小 结 


决策 树 作为 一 种 普遍 使 用 的 分 类 模型 ， 具 有 如 下 优点 。 

(1) 决策 树 容易 被 理解 和 被 解释 ， 并 且 可 以 被 映射 到 一 组 更 具 吸 引力 的 产生 式 规 则 。 

(2) 决策 树 不 需要 对 数据 的 性 质 作 预 先 的 假设 。 

(3) 决策 树 能 够 使 用 数值 型 数据 和 分 类 类 型 数据 的 数据 集 建立 模型 。 

决策 树 也 存在 以 下 局 限 性 。 

(1) 输出 属性 必须 是 分 类 类 型 ， 且 输出 属性 必须 为 一 个 。 

(2) 决策 树 算法 是 不 稳定 (Unstable) 的 ， 因 为 训练 数据 的 微小 变化 将 导致 树 中 每 个 属性 
分 裂 点 处 有 不 同 的 选择 。 这 种 变化 造成 的 影响 很 大 ， 属 性 的 选择 影响 着 所 有 的 后 续 子 树 。 

例如 : 若 将 表 2.1 中 的 第 三 条 实例 的 Play 属性 值 由 Yes 改 为 No, 再 进行 相同 的 决策 树 
训练 ， 则 生成 的 分 类 模型 完全 不 同 ， 如 图 2.14 所 示 。 
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图 2.14 ”训练 数据 微小 变化 导致 训练 结果 完全 不 同 
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(3) 用 数值 型 数据 集 创建 的 树 较为 复杂 (如 例 2.3 中 的 未 剪 枝 的 决策 树 )， 因 为 数值 型 数 
据 的 属性 分 裂 通常 是 二 元 分 裂 。 


2.2 关联 规则 


关联 分 析 (Association Analysis) 是 发 现 事物 之 间 关 联 关 系 (Associations) 的 分 析 过 程 ， 其 
典型 应 用 就 是 购物 篮 分 析 (Market Basket Analysis)。 购 物 篮 分 析 是 确定 顾客 在 一 次 购物 中 可 
能 一 起 购买 的 商品 ， 发 现 其 购物 篮 中 不 同 商品 之 间 的 联系 ， 分 析 顾 客 的 购买 习惯 ， 从 而 发 
现 购买 行为 之 间 的 关联 。 这 种 关联 的 发 现 可 以 帮助 零售 商 制定 营销 策略 ， 其 中 一 个 著名 的 
应 用 案例 就 是 尿布 和 啤酒 。 购 物 篮 分 析 的 输出 结果 是 描述 顾客 购买 行为 的 一 组 关联 关系 ， 
这 些 关联 关系 以 一 组 特殊 的 规则 形式 一 一 关联 规则 (Association Rules) 来 表达 。 


2.2.1 关联 规则 概述 


关联 规则 的 一 般 表现 为 蕴含 式 规则 形式 : X 一 Y。 其 中 , XX 和 YY 分 别称 为 关联 规则 的 前 
提 或 先导 条 件 (Antecedent) 和 结果 或 后 继 (Consequent)。 

关联 规则 与 传统 的 用 于 分 类 的 产生 式 规 则 有 两 点 不 同 。 

(1) 在 某 条 关联 规则 中 以 前 提 条 件 出 现 的 属性 可 以 出 现在 下 一 条 关联 规则 的 结果 中 。 

(2) 传统 的 用 于 分 类 的 产生 式 规 则 的 结果 中 仅 能 有 一 个 属性 ， 而 关联 规则 中 则 允许 其 
结果 包含 一 个 或 多 个 属性 。 

【 例 2.4】 根据 顾客 实际 购买 行为 数据 (如 表 2.3 所 示 ， 其 中 值 为 1 表示 购买 了 该 种 商 
品 ; 值 为 0 表示 未 购买 该 种 商品 )， 分 析 顾 客 在 网 络 购物 中 购买 图 书 、 运 动 鞋 、 耳 机 、DVD 
和 果汁 五 种 商品 时 ， 是 否 存 在 购买 行为 上 的 关联 。 

表 2.3 网络 购 物 交易 记录 表 


No Book pv Juice 


通过 分 析 ， 可 得 到 如 下 4 条 关联 关系 。 
(1) 如 果 顾 客 购买 了 Sneaker( 运 动 鞋 )， 那 么 他 们 也 会 购买 Earphone( 耳 机 )。 
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(2) 如 果 顾 客 购买 了 Book( 图 书 )， 那 么 他 们 也 会 购买 Juice( 果 汁 )。 
(3) 如 果 顾 客 购买 了 Book( 图 书 ) 和 DVD， 那 么 他 们 也 会 购买 Earphone( 耳 机 )。 
(4) 如 果 顾 客 购买 了 Book( 图 书 )、Sneaker( 运 动 鞋 ) 和 Earphone( 耳 机 )， 那 么 他 们 也 会 购 
买 DVD。 
得 到 以 上 4 条 关联 关系 后 ， 其 可 信 程 度 如 何 ? 即 一 个 顾客 购买 了 运动 鞋 后 ， 他 会 购买 
耳机 的 可 能 性 有 多 大 ? 
一 般 情 况 下 ， 使 用 置信 度 (Confidence) 来 度量 每 个 关联 规则 在 前 提 条 件 下 结果 发 生 的 可 
能 性 。 置 信 度 是 在 假设 购买 运动 鞋 的 情况 下 ， 顾 客 购买 耳机 的 条 件 概 率 。 因 此 ， 根 据 
表 2.3， 可 以 计算 出 关联 关系 (1) 的 置信 度 为 : 
数据 集中 一 共有 10 个 实例 ， 即 有 10 条 购买 交易 记录 ， 其 中 购买 了 Sneaker( 运 动 鞋 ) 的 
交易 有 5 条 ， 在 购买 了 运动 鞋 的 5 条 交易 中 ， 又 购买 了 Earphone( 耳 机 ) 的 交易 有 3 条 ， 则 
在 购买 运动 鞋 的 情况 下 ， 购 买 耳 机 的 置信 和 度 为 3/5 = 60%。 
以 此 类 推 ,第 (2)、(3)、(4) 条 关联 关系 的 置信 度 分 别 为 3/5 = 60%、4/4 = 100%、2/2 = 100%。 
规则 置信 度 并 未 提供 这 条 关联 关系 在 所 有 交易 中 所 占 的 比例 ， 即 包含 在 关联 关系 中 的 
购买 行为 是 普遍 交易 行为 ， 还 是 个 别 行为 。 例 如 ， 若 在 大 量 的 交易 记录 中 ， 只 出 现 一 次 顾 
客 购买 了 图 书 又 购买 了 果汁 的 记录 ， 这 个 关联 关系 的 置信 度 为 /1 = 100%， 但 是 这 种 极 个 
别 行为 尽管 置信 度 很 高 ， 但 在 全 部 交易 中 的 覆盖 程度 很 低 ， 这 样 的 关联 关系 在 应 用 时 ， 需 
要 特别 慎重 。 
可 以 使 用 支持 度 (Support) 这 个 统计 量 来 度量 包含 了 关联 关系 中 出 现 的 属性 值 的 交易 占 
所 有 交易 的 百分比 。 支 持 度 是 在 关联 关系 中 出 现 的 所 有 条 目 (Items) 在 数据 集 实 例 (交易 ) 中 所 
占 的 最 小 百分比 ， 这 里 的 条 目 是 指 属性 的 取 值 ， 表 示 为 Sneaker = 1。 因 此 , 根据 表 2.3， 可 
以 计算 出 关联 关系 (1) 的 支持 度 为 : 
数据 集中 一 共有 10 个 实例 ， 即 有 10 条 购买 交易 记录 ， 其 中 购买 了 Sneaker( 运 动 鞋 ) 和 
Earphone( 耳 机 ) 的 交易 有 3 条 ， 则 规则 (1) 的 支持 度 为 3/10 = 30%。 
以 此 类 推 ， 第 (2)、(3)、(4) 条 关联 关系 的 支持 度 分 别 为 3/10= 30%、4/10 = 40%、2/10 
= 20%。 
一 般 在 关联 分 析 过 程 中 ,设置 置信 和 度 和 支持 度 的 闵 值 ， 当 分 析 得 到 的 关联 关系 达到 置 
信和 度 和 支持 度 的 阀 值 时 ， 这 样 的 关联 关系 被 认为 是 有 趣 的 ， 而 被 保留 下 来 应 用 到 实际 问 
题 中 。 


2.2.2 关联 分 析 


1993 年 ， 阿 戈 登 (Agrawal) 等 人 提出 了 著名 的 关联 分 析 算 法 一 一 Apriori 算法 。Apriori 
算法 的 基本 思想 如 下 。 

(1) 生成 条 目 集 (Item Sets)。 条 目 集 是 符合 一 定 的 支持 度 要 求 的 “属性 - 值 ”的 组 合 。 那 
些 不 符合 支持 度 要 求 的 “属性 - 值 ” 组 合 被 丢弃 ， 因此， 规则 的 生成 过 程 可 以 在 合理 的 时 间 
内 完成 。 

(2) 使 用 生成 的 条 目 集 创建 一 组 关联 规则 。 

【 例 2.5】 将 表 2.3 作为 数据 集 ， 使 用 Apriori 算法 进行 关联 分 析 ， 产 生 描 述 网 络 购买 
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! 行为 的 关联 规则 。 

' 具体 步骤 如 下 。 

， (1) 设置 支持 度 阔 值 为 50%， 创 建 第 一 个 条 目 集 表 ， 如 表 2.4 所 示 。 该 表 是 包含 单项 条 
! 目的 集合 。 由 于 Earphone =0、DVD =0 和 Juice =0 三 个 条 目 不 满 足 支持 度 要 求 ， 需 要 从 
， 条 目 集中 删除 ， 而 其 他 7 个 条 目 将 保留 在 条 目 集 1 中， 并 作为 下 一 步 构造 双 项 条 目 集合 的 
1 基础。 
' 

1 

1 

1 

1 

1 


表 2.4 网 络 购物 行为 关联 分 析 条 目 表 1 
条 目 集 条 目 个 数 符合 支持 度 要 求 结 果 
Book=1 5 Yes 保留 
Sneaker = 1 5 Yes 保留 
_Earphone =1 7 Yes 保留 
DVD=! 3 Yes 保留 
Juice=1 6 Yes 保留 
Book=0 5 Yes 保留 
Sneaker =0 5 Yes 保留 
Earphone =0 3 No 删除 
DVD=0 多 No 删除 
Juice = 0 4 No 删除 


(2) 设置 支持 度 阔 值 为 40%， 创建 第 二 个 条 目 集 表 ， 如 表 2.5 所 示 。 该 表 是 包含 双 项 条 
目的 集合 。 构 造 双 项 条 目 时 ， 只 需要 考虑 从 单项 集合 表 中 导出 的 “属性 - 值 ” 组 合 。 因 组 合 
双 项 条 目 太 多 ， 表 2.5 中 仅 显示 符合 支持 度 要 求 而 保留 下 来 的 条 目 。 


表 2.5 网 络 购物 行为 关联 分 析 条 目 表 2 


条 目 集 结 果 
Book =1 & Earphone =1 保留 
Book=]1 & DVD=1 保留 
Book =0 & DVD=1 保留 
Sneaker =1 & DVD= 1 保留 
Sneaker =0 & Earphone = 1 保留 
Sneaker =0 & DVD=1 保留 
Earphone = 1& DVD =1 保留 
DVD= 1 & Juice =1 保留 


(3) 仍 将 支持 度 阔 值 设 置 为 40%， 使 用 双 项 条 目 表 中 的 “属性 - 值 ” 组 合生 成 三 项 条 目 
集 ， 有 两 条 条 目 ， 如 下 所 示 。 


Book =1 & Earphone = 1& DVD = 1 
Sneaker =0 & Earphone = 1 & DVD= 1 
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(4) 再 次 将 支持 度 阔 值 设 置 为 40%， 以 三 项 条 目 集 为 基础 ， 生 成 四 项 条 目 集 ， 发 现 没 
有 符合 支持 度 要 求 的 条 目 ， 条 目 集 生成 工作 结束 。 

(5) 以 生成 的 条 目 集 为 基础 创建 关联 规则 。 首 先 设置 置信 度 阔 值 为 80%， 然 后 从 双 项 
和 三 项 条 目 集 表 中 生成 关联 规则 ， 最 后 ， 所 有 不 满足 置信 度 阔 值 的 规则 将 被 删除 。 

以 下 为 以 双 项 条 目 集中 的 第 一 条 条 目 生 成 的 两 条 规则 。 

IE Book =1 THEN Earphone = 1 

置信 度 : 4/5 = 80%， 保 留 

IF Earphone = 1 THEN Book =1 

置信 度 : 4/7 = 57.1%， 删 除 

以 下 为 以 三 项 条 目 集中 的 第 一 条 条 目 生成 的 三 条 规则 。 

IF Book =1 & Earphone = 1 THEN DVD = 1 

置信 度 : 4/4= 100%， 保 留 

IF Book =1 & DVD = 1 THEN Earphone = 1 

置信 度 : 4/4 = 100%， 保 留 

IF Earphone = 1 & DVD = 1 THEN Book =1 

置信 度 : 4/6 = 66.7%， 删 除 

【 例 2.6】 使 用 Weka 的 Apriori 算法 为 表 2.3 生成 关联 规则 。 

实验 步骤 如 下 。 

(1) 为 适应 Apriori 算法 的 要 求 ， 将 表 2.3 中 的 数值 型 数据 变换 为 分 类 类 型 数据 ， 即 其 
中 的 1 用 Yes 替换，0 用 No 替换 ， 加 载 数据 集 。 

(2) 切换 到 Associate 选项 卡 ， 单 击 Choose 按钮 ， 选 择 Apriori 算法 ， 如 图 2.15 所 示 。 


Associator 


点 weka 
晶 associations 
pA priori | 

| ® FilteredAssociator 
® FPCrovth 
@ GeneralizedSequentialPatterns 
@ PredictiveApriori 
| 二 Tertius 


图 2.15 选择 Apriori 算法 


(3) 单 击 Choose 按钮 右 方 的 文本 框 ， 在 算法 参数 设置 对 话 框 中 ， 设 置 outputItemSets 
为 True， 和 希望 输出 条 目 集 ， 如 图 2.16 所 示 。 从 图 中 可 以 看 到 使 用 置信 度 Confidence 进行 规 
则 的 度量 ， 最 小 置信 度 为 0.9。 支 持 度 Support 闵 值 的 上 下 限 为 0.1 一 1.0。 

(4) 单 击 Start 按钮 ， 输 出 结果 如 图 2.17 所 示 。 在 图 2.17(a) 中 可 以 看 到 支持 度 阔 值 为 
0.35， 置 信和 度 阐 值 为 0.9， 以 及 各 个 条 目 集 。 在 图 2.17(b) 中 可 以 看 到 生成 的 关联 规则 有 10 
条 ， 置 信 度 全 部 为 100%。 
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2.16 设置 算法 参数 


Associator output 


Apriori 


Minimum support: 0.35 (3 inacancea) 
Minimum netric <confidence>: 0.9 
Number of cycles performed: 13 


Generated aera of large itersers: 
Size of set of large itensers L(1);: 9 


Large Itemsecs L(1): 

BookeYes 5 

BookwNo 5 

Sneaker=Yes 5 

Sneaker=lHo 5 1 

Earphone=Yes 7 2 

Earphone=lo 3 8 

DVD-Yea 8 

Juice=Yes 6 和 

Taicenio 4 5 
6 

Size of aer of large liremaera L(2): 20 时 
8 
9 


Large Itemsecs L(2): 
Book=Yes Sneaker=No 3 
Book=Yes Earphone=Yes 4 


(a) 


Best rules found: 


Juice=lo 4 一 > Earphone=Yes 4 conf:(1) 


Book=Yes DVD=Yes 4 一 > Earphone=Yes 4 conf: (1) 
» Book=Yes Earphone=Yes 4 一 > DVD=Yes 4 conf:(1) 
.Sneaker=No DVD=Yes 4 ==> Earphone=Yes 4 conf:(1) 
Sneaker=iio Larphone=Yes 4 ==> DVD=Yes 4 conf:(1) 
. Earphone=lio 3 ==> Juice=Yes 3 conf:(1) 
» Book=No Juice=Yes 3 ==> DVD=Yes 3 conf:(1) 
.Sneaker=Yes Juice=Yes 3 ==> DD=Yes 3 ”conf 
. Earphone=Yes Juice=Yes 3 ==> DVD=Yes 3 con 
. DVD=Yes Juice=No 3 ==> Earphone=Yes 3 conf: 


(b) 


图 2.17 Apriori 算法 输出 结果 


2.2.3 ”关联 规则 小 结 


关联 规则 不 受 因 变量 个 数 的 限制 ， 能 够 在 大 型 数据 库 中 发 现 数据 之 间 的 关联 关系 ， 所 


以 划 


队 4 


应 用 非常 广泛 。 但 是 ， 一 次 关联 分 析 输 出 的 规则 往往 数量 较 多 ， 且 多 数 并 无 利 


价值 ， 


| 中 NI 第 2 吾 ” 导 本 数据 巷 可 区 
(1 
所 以 对 关联 规则 的 解释 和 应 用 必须 谨慎 。 
例如 ， 顾 客 如 果 购买 了 牛奶 ， 那 么 他 也 会 购买 面包 。 这 条 规则 的 置信 度 很 高 ， 但 是 没 
有 什么 价值 。 因 为 多 数 去 超市 购物 的 人 都 会 为 早餐 准备 牛奶 和 面包 ， 同 时 购买 两 种 商品 不 
足 为 奇 ， 这 条 规则 不 能 提供 给 我 们 任何 有 趣 的 、 有 潜在 价值 的 、 新 颖 的 市 场 信息 。 
然而 ， 以 下 关联 规则 是 有 趣 的 。 
(D 某 个 商品 销售 额 上 升 ， 而 它 与 另 一 个 商品 相关 联 。 这 条 规则 有 助 于 促销 相关 联 的 
商品 。 
CO) 某 个 关联 的 置信 度 低 于 预期 。 这 条 规则 表达 出 规则 中 相关 商品 可 能 有 竞争 关系 的 


信号 。 


2.3 ” 聚 类 分 析 技 术 


聚 类 分 析 是 指 将 多 个 无 明显 分 类 特征 的 对 象 , 按照 某 种 相似 性 分 成 多 个 艇 (Cluster) 的 分 
析 过 程 。 目 前 有 许多 聚 类 算法 和 技术 ,参见 “第 7 章 统计 技术 ”。 这 里 将 介绍 最 著名 、 应 
用 最 广泛 、 聚 类 效果 也 很 好 的 K-means 算法 。 

K-means 算法 区- 均值 算法 ) 是 斯 图 尔 特 。 劳 埃 德 (Stuart Lloyd) 于 1982 年 提出 的 简单 而 
有 效 的 统计 聚 类 技术 。 其 基本 思想 为 如 下 。 

(1) 随机 选择 一 个 天 值 ， 用 以 确定 簇 的 总 数 。 

(2) 在 数据 集中 任意 选择 天 个 实例 ， 将 它们 作为 初始 的 簇 中 心 。 

(3) 计算 这 天 个 簇 中心 与 其 他 剩余 实例 的 简单 欧 氏 距离 (Euclidean Distance)， 用 这 个 距 
离 作 为 实例 之 间 相似 性 的 度量 ， 将 与 某 个 簇 相似 度 高 的 实例 划分 到 该 徐 中 ， 成 为 其 成 员 
pa 

(4) 使 用 每 个 簇 中 的 实例 来 计算 该 簇 新 的 簇 中 心 。 

(5) 如 果 计 算得 到 新 的 簇 中 心 等 于 上 次 迭代 的 簇 中 心 ， 终 止 算法 过 程 。 否 则 ， 用 新 的 
徐 中 心 作为 侯 中 心 并 重复 步骤 G3) 一 (3)。 

K-means 算法 说 明 如 下 。 

(1) 算法 的 第 一 步 需要 随机 选择 一 个 簇 的 总 数 ， 这 时 需要 有 一 个 初始 判断 ， 数 据 中 可 
能 包含 多 少 个 类 ( 簇 )。 

(2) 算法 选择 天 个 数据 点 作为 初始 簇 中 心 是 随机 的 。 

(3) 相似 性 的 度量 有 多 种 方法 ， 其 中 简单 欧 氏 距离 (Euclidean Distance) 是 最 常用 的 度量 
方法 ， 如 式 (2.9) 所 示 。 其 余 度量 方法 还 包括 曼哈顿 距离 (Manhattan Distance)、 切 比 雪夫 距离 
(Chebyshev Distance)、 编 辑 距离 (Edit Distance) 等 。 但 K-means 算法 目前 仅 支 持 简 单 欧 氏 距 
离 和 曼哈顿 距离 。 


Distance(4—- B)=V(% —%,) +(W —y,) (2.9) 
其 中 : 4、B 为 两 个 对 象 ，x1、yi 为 对 象 4 的 属性 ; x2、y 为 对 象 B 的 属性 。 
(4) 通过 计算 每 个 新 簇 的 平均 值 来 更 新 簇 中 心 。 
(5) 算法 终止 的 条 件 是 每 个 簇 的 簇 中 心 不 再 改变 。 即 聚 类 到 某 个 簇 中 的 所 有 实例 都 保 
留 在 该 簇 中 ， 不 再 变化 。 
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数据 挖掘 号 论 


2.3.1 K-means 算法 


【 例 2.7】 对 表 2.6 中 的 数据 进行 K-means 聚 类 分 析 。 
表 2.6 用 于 K-means 算法 的 数据 集 


Instance 


表 2.6 中 有 5 个 实例 ， 每 个 实例 有 两 个 属性 ， 名 为 x 和 y。 可 以 将 这 5 个 实例 映射 到 一 


个 二 维 坐标 系 下 的 点 ，x 和 yy 属性 值 分 别 为 这 些 点 的 坐标 值 ， 如 图 2.18 所 示 。 
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2.18 表 2.6 中 数据 的 坐标 映射 


对 表 2.6 中 的 数据 执行 K-means 聚 类 分 析 ， 其 步骤 如 下 。 

(1) 设置 天 值 为 2。 

(2) 任意 选择 两 个 点 分 别 作 为 两 个 簇 的 初始 簇 中 心 。 假 设 选择 实例 1 作为 第 1 个 簇 中 
心 、 实 例 2 作为 第 2 个 簇 中 心 。 

(3) 使 用 式 (2.9)， 计 算 其 余 实例 与 两 个 簇 中 心 的 简单 欧 氏 距离 (Euclidean Distance)， 结 
果 如 表 2.7 所 示 。 表 中 的 Cy 和 Cs 表示 两 个 簇 中 心 , 表 中 的 值 为 所 有 实例 距离 两 个 簇 中心 的 
距离 , 如 实例 3 中 的 值 3.91 和 2.83, 表示 实例 3 距离 两 个 簇 中 心 的 距离 。 从 表 中 可 以 看 到 ， 
第 3、4、5 个 实例 距离 秘 2 最 近 ， 故 将 第 3、4、5 个 实例 划分 到 簇 2 中 。 在 算法 的 第 一 次 
迭代 后 ， 得 到 两 个 徐 : {1} 和 {2,3,4.5}。 


表 2.7 第 一 次 到 第 三 次 迭代 中 实例 与 簇 之 间 的 简单 欧 氏 距离 (Euclidean Distance) 


(4) 重新 计算 新 的 簇 中心 。 

对 于 簇 1: 簇 中 心 不 变 ， 即 C1 = (1.0,1.0)。 

对 于 艇 2: x=(2.0+4.0+5.0+3.5)/4=3.625, y=(1.5+3.5+4.5+5)/4=3.625。 

得 到 新 的 簇 中 心 C= (1.0,1.0) 和 C= (3.625,3.625)， 因 为 簇 中 心 发 生 了 变化 ， 算 法 必 
须 执 行 第 二 次 迭代 ， 重 复 步 又 (3)。 

第 二 次 迭代 之 后 的 结果 导致 了 簇 的 变化 ，{1,2} 和 {3,4,5}。 

(5) 重新 计算 每 个 簇 中 心 。 

对 于 艇 1: x=(1.0+2.0)/2=1.5, y=(1.0+1.5)/2=1.25。 

对 于 簇 2: x=(4.0+5.0+3.5)/3=4.17, y=(3.5+4.5+5)/3=4.33。 

这 次 迭代 后 簇 中 心 再 次 改变 。 因 此 ， 该 过 程 继续 进行 第 三 次 迭代 ， 结 果 形 成 {1,2} 和 
{3,4,5} 两 个 徐 ， 与 第 二 次 迭代 后 形成 的 簇 完全 一 样 ， 若 继续 计算 新 簇 中 心 的 话 ， 簇 中 心 的 
值 一 定 不 变 ， 至 此 ， 算 法 结束 。 聚 类 结果 如 图 2.19 所 示 。 
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图 2.19 表 2.6 中 数据 的 聚 类 结果 


实际 上 ， 对 于 初始 簇 中 心 的 选择 不 同 ， 可 能 会 导致 最 后 的 聚 类 结果 不 同 ， 这 是 该 算法 
的 局 限 性 。 那 么 ， 如 何 评估 一 个 聚 类 是 最 佳 的 ? 如 何 找到 最 佳 聚 类 呢 ? 

K-means 算法 的 最 优 聚 类 通常 为 : 簇 中 所 有 实例 与 禾 中 心 的 误差 平方 和 最 小 的 聚 类 。 
而 寻找 最 佳 聚 类 的 方法 是 对 于 给 定 的 开 值 ， 选 择 不 同 的 初始 簇 中 心 重复 执行 算法 。 然 而 对 
于 大 的 数据 集 ， 此 方法 是 不 可 行 的 ， 一 般 做 法 是 指定 一 个 终止 标准 ， 如 可 接受 的 最 大 均 方 
误差 。 

下 面 对 表 2.6 中 的 数据 集 使 用 Weka 进行 K-means 聚 类 , 检查 聚 类 结果 是 否 与 例 2.7 相同 。 

【 例 2.8】 使 用 Weka 对 表 2.6 中 的 数据 进行 K-means 聚 类 分 析 。 

(1) 加 载 例 2.7.csv 数据 集 ， 选 择 Instance 列 ， 单 击 Remove 按钮 ， 使 该 属性 不 参加 训 

练 。 切 换 到 Cluster 选项 卡 ， 单 击 Choose 按钮 ， 打 开 算 法 选择 对 话 框 ， 选 择 SimpleKMeans 
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算法 ， 如 图 2.20 所 示 。 
(2) 单 击 Choose 按钮 右 方 的 文本 框 ， 打 开 参 数 设 置 对 话 框 ， 查 看 参数 ， 并 保持 默认 。 
注意 将 天 值 (numClusters 聚 类 数 ) 设 置 为 2， 距 离 函 数 选择 欧 氏 距离 ， 如 图 2.21 所 示 。 
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图 2.20 选择 K-means 算法 2.21 设置 K-means 算法 的 参数 


(3) 单 击 Start 按钮 , 查看 结果 , 如 图 2.22 所 示 。 注意 结果 中 将 实例 分 为 0 和 1 两 个 徐 ， 
分 别 由 3 个 和 2 个 实例 ， 每 个 簇 中 心 值 分 别 为 (4.1667,4.3333) 和 (1.5,1.25)， 与 上 述 计算 结果 


完全 相同 。 
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图 2.22 K-means 聚 类 的 输出 结果 


(4) 在 Result list 窗 格 中 的 本 次 数据 挖掘 会 话 条 目 上 右 击 ， 弹 出 如 图 2.23 所 示 的 输出 
选项 快捷 菜单 ,选择 Visualize cluster assignments 命令 ， 打 开 聚 类 结果 可 视 化 窗口 ,选择 x、 
》 坐标 分 别 显 示 x、?y 属性 值 ， 如 图 2.24 所 示 ， 与 图 2.19 完全 相同 。 
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图 2.23 输出 结果 选项 菜单 图 2.24 K-means 聚 类 的 可 视 化 输出 结果 


2.3.2 K-means 算法 小 结 


K-means 算法 是 一 种 非常 受 欢迎 的 算法 ， 它 容易 理解 ， 其 实现 也 很 简单 。 但 存在 如 下 
局 限 性 。 

(1) 该 算法 只 能 处 理 数值 型 数据 ， 若 数据 集中 有 分 类 类 型 的 属性 ， 要 么 将 该 属性 删除 ， 
要 么 将 其 转换 成 等 价 的 数值 数据 。 

(2) 在 算法 开始 执行 之 前 ， 需 要 随机 选择 天 值 ， 作 为 初始 簇 的 个 数 。 这 种 选择 明显 带 
有 随意 性 ， 一 个 错误 的 选择 ， 将 会 直接 影响 聚 类 的 效果 。 通 常 需要 选择 不 同 的 天 值 进 行 重 
复 实 验 ， 以 期 望 找到 最 佳 的 天 值 。 

(3) 当 簇 的 大 小 近似 相等 时 ，K-means 算法 的 效果 最 好 。 

(4) 无 法 得 知 哪些 属性 对 于 确定 簇 的 划分 是 重要 的 ， 一 些 对 于 聚 类 贡献 不 大 的 属性 可 
能 会 对 聚 类 效果 造成 影响 。 通 常 可 以 在 聚 类 之 前 对 属性 进行 选择 。 

(5) 聚 类 所 形成 的 艇 的 解释 是 一 件 困难 的 事 。 通 常 可 以 使 用 有 指导 的 数据 挖掘 工具 对 
无 指导 聚 类 算法 所 形成 秘 的 性 质 作 进一步 的 解释 。 


2.4 数据 挖掘 技术 的 选择 


对 于 一 个 需要 解决 的 实际 问题 ， 存 在 多 种 技术 可 供 选 择 。 选 择 何 种 技术 解决 特定 的 问 
题 ， 没 有 一 个 下 -THEN-ELSE 模式 ， 即 很 难 从 一 个 确定 的 条 件 推出 一 个 确定 的 选择 结果 ， 
也 没有 一 个 固定 的 选择 流程 。 实 际 上 ， 选 择 数据 挖掘 技术 时 需要 考虑 多 方面 的 因素 ， 有 技 
术 层 面 的 ， 有 商业 需求 和 应 用 需求 的 考虑 ， 还 可 能 有 很 多 制约 条 件 ， 如 数据 本 身 的 质量 、 
人 员 的 数据 挖掘 技术 水 平 、 解 释 和 评估 能 力 等 。 通 常 可 以 从 以 下 几 个 方面 来 考虑 数据 挖掘 
技术 的 选择 。 

(1) 数据 挖掘 技术 分 为 三 个 大 类 ， 包 括 有 指导 的 学 习 技 术 、 关 联 分析 和 无 指导 的 聚 类 
技术 。 首 先 应 该 确定 这 个 特定 问题 是 有 指导 的 还 是 无 指导 的 , 是否 需 要 进行 关联 关系 分 析 ， 
从 而 决定 是 使 用 C4.5 决策 树 技 术 、 产 生 式 规则 、KNN、 回 归 分 析 、 贝 叶 斯 分 析 、 神 经 网 络 
技术 等 有 指导 的 挖掘 技术 ， 还 是 使 用 KK-means 算法 、 凝 聚 聚 类 、Cobweb 算法 、EM 算法 、 
神经 网 络 技术 等 聚 类 技术 ， 或 是 使 用 Aprioro 关联 分 析 算法 等 关联 分 析 技 术 。 

(2) 不 同 数据 挖掘 技术 对 数据 集中 的 属性 之 间 的 相关 程度 有 不 同 的 适应 性 ， 需 要 在 选 
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择 不 同 挖掘 技术 时 ， 考 虑 属性 之 间 的 相互 影响 ， 并 采用 属性 选择 方法 ， 删 除 一 些 具有 正 相 
关 或 负 相 关 的 属性 ， 以 提高 数据 挖掘 的 质量 。 

(3) 不 同 的 数据 挖掘 技术 对 数据 类 型 本 身 是 敏感 的 。 选 择 技术 之 前 ， 要 明确 数据 集 属 
性 的 类 型 ， 包 括 输入 属性 是 分 类 的 、 数 值 的 ， 还 是 混合 的 ; 输出 属性 是 分 类 的 还 是 数值 的 。 
例如 ， 决 策 树 要 求 输出 属性 是 分 类 类 型 的 ， 关 联 分 析 也 要 求 属性 是 分 类 类 型 的 ， 而 神经 网 
络 、 回 归 分 析 等 则 要 求 输入 、 输 出 属性 都 必须 是 数值 型 数据 。 

(4) 针对 数据 本 身 ， 还 应 该 了 解数 据 的 分 布 ， 比 如 统计 技术 则 事先 假设 了 数据 是 正 态 
分 布 的 ， 这 种 假设 是 否 与 实际 相符 ， 是 在 采取 统计 技术 前 需要 考虑 的 问题 。 

(5) 针对 数据 本 身 ， 还 应 该 了 解 属性 对 于 分 类 的 预测 能 力 。 在 神经 网 络 、KNN 和 各 种 
聚 类 技术 中 都 是 事先 假定 所 有 属性 具有 相同 重要 性 的 情况 下 ， 若 存在 对 于 分 类 预测 无 价值 
的 属性 ， 将 会 对 模型 结果 产生 很 大 影响 。 

(6) 对 于 数据 集中 存在 噪声 数据 和 缺失 数据 的 考虑 。 一 些 数据 挖掘 技术 能 够 较 好 地 处 
理 噪声 和 缺失 数据 ， 如 神经 网 络 技术 ， 但 是 决策 树 处 理 缺 失 和 噪声 数据 却 是 个 困难 。 

(7) 如 果 学 习 是 有 指导 的 ， 判 断 有 一 个 输出 属性 还 是 有 多 个 输出 属性 ， 如 决策 树 和 回 
归 分 析 都 要 求 只 能 有 一 个 输出 属性 。 

(8) 对 所 学 知识 的 解释 能 力 往 往 也 是 在 选择 某 种 技术 建 模 时 需要 考虑 的 内 容 。 如 果 对 
模型 的 可 解释 性 和 可 理解 性 要 求 较 高 ， 神 经 网 络 和 回归 模型 这 样 的 黑 盒子 结构 就 不 太 适合 
了 ， 而 如 决策 树 、 产 生 式 规则 等 白 盒子 结构 则 更 为 适合 。 

(9) 在 选择 挖掘 技术 时 是 否 有 时 间 上 的 考虑 。 如 神经 网 络 的 创建 时 间 可 能 要 比 创 建 决 
策 树 和 产生 式 规则 长 。 

(10) 选择 机 器 学 习 技 术 还 是 统计 技术 的 一 些 考虑 ， 详 见 “ 第 7 章 统计 技术 ”。 

不 论 选择 哪 种 数据 挖掘 技术 ， 在 建 模 过 程 中 为 了 得 到 更 好 的 效果 ， 如 更 高 的 分 类 正确 
率 ， 或 者 更 好 的 聚 类 质量 ， 往 往 需 要 进行 多 次 实验 ， 在 每 次 实验 中 ， 可 能 会 有 不 同 的 属性 
和 实例 的 选择 、 不 同 的 参数 配置 、 不 同 的 检验 方法 和 检验 集 的 选择 等 。 数 据 挖 掘 项 目的 成 
功 ， 技 术 选 择 仅 为 关键 环节 之 一 。 所 以 ， 有 人 说 数据 挖掘 是 技术 ， 也 是 艺术 ， 并 不 夸张 。 


本 章 小 结 


本 章 内 容 概述 如 图 2.25 所 示 。 
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图 2.25 第 2 章 内 容 导 图 


| 第 2 章 ， 基 本 数据 栓 握 攻击 
[WILLLLLILE 

随 着 数据 挖掘 技术 的 广泛 应 用 , 产生 了 多 种 技术 和 算法 。 本 章 介 绍 了 三 种 经 典 的 算法 : 
分 类 决策 树 算法 C4.5、 关 联 规则 算法 Apriori、 聚 类 算法 K-means。 在 第 7 章 还 将 专门 介绍 
基于 统计 技术 的 其 他 算法 。 

决策 树 是 目前 最 流行 的 一 种 有 指导 数据 挖掘 技术 ， 其 中 C4.5 算法 使 用 最 为 广泛 。C4.5 
算法 的 基本 思想 是 将 数据 集中 的 实例 作为 训练 集 ， 训 练 集 数据 有 多 个 输入 属性 和 一 个 分 类 
类 型 的 输出 属性 。 选 择 增益 率 最 大 的 属性 作为 分 裂 属性 ， 创 建 根 节点 和 其 他 分 支 节 点 ， 按 
照 该 属性 的 可 能 取 值 建立 分 支 ， 对 实例 进行 分 类 ， 这 个 迭代 过 程 直 到 满足 一 定 的 终止 条 件 
为 止 。 决 策 树叶 子 节点 表达 了 从 根 到 该 点 的 路 径 上 实例 的 分 类 结果 。 分 裂 属 性 的 选择 、 剪 
枝 和 检验 是 决策 树 算法 的 关键 技术 。 决策 树 易于 理解 并 能 够 准确 地 映射 为 一 组 产生 式 规则 。 

关联 规则 能 从 大 型 数据 库 中 找到 数据 之 间 的 关联 关系 ， 关 联 规则 和 传统 的 产生 式 规则 
不 同 。 其 中 Apriori 算法 作为 其 经 典 算 法 ， 得 到 普遍 应 用 。 算 法 中 使 用 置信 度 和 支持 度 两 个 
指标 来 确定 从 数据 中 挖掘 出 的 关联 关系 是 否 有 趣 、 是 否 对 市 场 有 预测 价值 。 但 是 ， 尽 管 有 
这 两 个 指标 的 质量 控制 ， 关 联 分 析 的 结果 也 会 产生 大 量 的 规则 ， 而 其 中 多 数 规则 价值 仍然 
不 高 ， 在 实际 中 需要 谨慎 应 用 。 

K-means 算法 是 一 种 具有 统计 特色 的 无 指导 聚 类 技术 。 算 法 中 的 所 有 属性 都 必须 是 数 
值 型 的 。 算 法 执行 之 前 ， 需 要 随机 选择 天 值 ， 即 初始 复 的 个 数 ， 以 及 随机 指定 天 个 实例 作 
为 这 下 个 簇 的 中 心 。 计 算 剩余 的 每 个 实例 与 各 个 簇 中 心 的 相似 程度 时 ， 往 往 使 用 简单 欧 氏 
距离 进行 度量 。 将 相似 性 最 高 的 实例 划分 到 相应 的 徐 中 ， 计 算 所 产生 的 新 的 簇 中 心 ， 重 复 
该 过 程 直到 簇 中 心 不 再 改变 为 止 。K-means 算法 易于 实现 和 理解 。 但 是 ， 该 算法 也 存在 一 
些 局 限 性 ， 如 算法 开始 时 天 值 选择 的 随机 性 、 缺 乏 对 数据 集 属性 的 重要 性 判断 、 缺 乏 对 所 
发 现 知识 的 解释 能 力 等 。 然 而 ， 尽 管 如 此 ，K-means 算法 仍然 是 一 种 使 用 最 广泛 的 聚 类 技 
术 允 二 


习 题 


1. 关联 规则 和 传统 的 用 于 分 类 的 产生 式 规则 有 什么 异同 ? 

2. 对 于 KK-means 算法 ， 最 优 聚 类 的 评判 标准 是 什么 ? 

3. 设计 方案 解决 K-means 算法 缺乏 对 所 发 现 内 容 进行 解释 的 问题 。 提 示 : 尝试 使 用 决 
策 树 算法 对 区-means 算法 形成 的 徐 的 定义 进行 解释 。 

4. 画 出 使 用 Partner 作为 根 节 点 的 决策 树 ， 并 写 出 决策 时 的 产生 式 规则 。 

5. 计算 使 用 Partner 作为 根 节点 的 增益 率 值 。 

6. 计算 使 用 Temperature 作为 根 节点 的 增益 率 值 。 

7. 使 用 表 2.3 中 的 数据 ， 计 算 以 下 关联 规则 的 置信 度 和 支持 度 值 。 


IF Juice = 1 & DVD = 1 THEN Earphone =1 


8. 对 以 下 三 项 条 目 ， 列 出 三 条 规则 ， 使 用 表 2.3 中 的 数据 确定 这 些 规则 的 置信 度 和 支 
持 度 的 值 。 


Book =1 & Sneaker = 0& DVD= 1 


sa 本 
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9. 使 用 表 2.8 所 示 的 数据 集 ， 应 用 KK-means 算法 进行 聚 类 ， 初 始 值 玉 为 2， 请 写 出 完 
整 的 迭代 过 程 和 最 后 的 聚 类 结果 。 使 用 Weka 软件 完成 相同 的 任务 ， 并 检查 两 个 结果 的 
异同 。 


表 2.8 数据 集 


Instance 


10. 使 用 表 2.1 中 的 打 篮 球 数 据 集 进行 有 K-means 无 指导 的 聚 类 , 选择 天 值 为 2， 且 不 使 
用 Play 属性 。 检 查 聚 类 结果 ， 并 与 Play 实际 分 类 情况 进行 比较 。 

11. 在 班级 或 学 校 开 展 打 篮球 问卷 调查 活动 ， 考 虑 在 完成 一 天 的 学 习 之 后 决定 是 否 去 
打 篮 球 的 影响 因素 ， 设 计 调 查 问卷 ， 对 问卷 结果 进行 整理 ， 生 成 数据 集 ， 建 立 有 指导 学 习 
模型 和 无 指导 聚 类 模型 ， 从 中 找 出 你 感 兴趣 的 知识 或 预测 某 位 同学 是 否 去 打 篮 球 。 还 可 以 
选择 其 他 研究 主题 ， 如 决定 是 否 去 看 电影 、 决 定 是 否 参 加 某 个 社团 、 决 定 是 否 选修 某 门 课 
程 等 。 

12. 登录 某 电 子 商 务 网 站 ， 查 看 和 收集 某 些 商品 的 购买 信息 ， 提 出 某 些 商品 一 般 会 被 
一 起 购买 的 假设 ， 采 集 数 据 ， 使 用 关联 分 析 验 证 你 的 假设 。 


第 3 章 ”数据库 中 的 知识 发 现 


本 章 要 点 提示 


数据 库 中 的 知识 发 现 是 一 个 从 数据 集中 发 现 知识 的 过 程 ， 经 常 与 数据 挖 所 等 同 使 用 。 
但 实质 上 ， 两 者 是 不 同 的， 数据 挖 握 仅 仅 为 知识 发 现 过 程 中 的 一 个 步 又。 本章 将 介绍 知识 
发 现 的 整个 过 程 ， 并 通过 一 个 完整 实例 加 以 说 明 。 

本 章 3.1 节 介 绍 知识 发 现 的 基本 概念 、 基 本 过 程 和 典型 模型 。3.2 节 重 点 剖析 知识 发 现 
过 程 中 的 每 个 步骤 的 任务 和 方法 。3.3 节 通 过 一 个 案例 说 明知 识 发 现 的 整个 过 程 。 


3.1 知识 发 现 的 基本 过 程 


数据 库 中 的 知识 发 现 (Knowledge Discovery in Data,KDD) 是 从 数据 集中 提取 可 信 的 、 新 
颖 的 、 具 有 潜在 使 用 价值 的 能 够 被 人 类 所 理解 的 模式 的 非 烦 琐 的 处 理 过 程 。KDD 一 词 是 马 
( 萨 马 M .法 耶 德 JUsama M .Fayyad 于 1989 年 首次 提出 ， 并 给 出 如 上 定义 。 

从 定义 中 可 以 看 到 ，KDD 是 一 个 处 理 过 程 ， 过 程 中 的 大 部 分 步骤 是 系统 自动 执行 的 ; 
数据 集 是 一 个 有 关 事实 的 集合 ， 如 某 信 用 卡 公司 的 客户 信息 数据 集 ， 是 描述 事物 某 个 方面 
的 数据 和 信息 ; 模式 是 针对 某 个 数据 集 , 描述 了 数据 自身 的 特性 ; “可 信 的 ”要 求 经 过 KDD 
过 程 从 数据 集中 发 现 的 模式 必须 能 够 经 受 正确 性 检验 ， 具 有 一 定 的 正确 性 ， 能 够 应 用 到 新 
数据 中 ; “新 颖 的 ”表示 经 过 KDD 过 程 发 现 的 模式 应 该 是 以 前 没有 发 现 的 、 希 望 得 到 的 
新 发 现 ;， “潜在 使 用 价值 ”表示 经 过 KDD 过 程 发 现 的 模式 应 该 是 有 价值 的 、 有 意义 的 ， 
这 种 价值 和 意义 一 般 不 能 直接 从 数据 中 看 出 来 或 查询 和 搜索 出 来 ， 是 可 以 被 利用 的 潜在 价 
值 ; KDD 的 目的 是 利用 所 发 现 的 模式 解决 实际 问题 ，“ 可 被 人 理解 ”的 模式 帮助 人 们 理解 
模式 中 包含 的 信息 ， 从 而 更 好 地 评估 和 利用 。 

从 Fayyad 提出 KDD 概念 后 ， 针 对 不 同 领 域 的 应 用 ， 目 前 存在 多 种 KDD 过 程 模型 。 
各 种 过 程 模型 描述 了 KDD 整个 处 理 过 程 的 步骤 和 各 个 阶段 中 的 目标 和 方法 。 


3.1.1 KDD 过 程 模 型 


1. 经 典 KDD 处 理 模型 


经 典 KDD 处 理 模型 又 称 阶梯 处 理 模型 ， 是 Fayyad 等 人 提出 的 具有 九 个 步骤 的 阶梯 递 
进 的 KDD 处 理 模型 (如 图 3.1 所 示 )， 这 九 个 步骤 分 别 如 下 。 

(1) 数据 准备 : 了 解 应 用 领域 的 相关 情况 ， 熟 悉 相关 背景 知识 ， 确 定 用 户 的 要 求 。 

(2) 数据 选择 : 根据 用 户 的 要 求 从 数据 库 中 提取 与 KDD 相关 的 数据 ，KDD 将 主要 从 
这 些 数据 中 进行 知识 提取 ， 在 此 过 程 中 ， 会 利用 一 些 数据 库 操 作对 数据 进行 处 理 。 

(3) 数据 预 处 理 : 对 从 数据 库 中 提取 的 数据 进行 加 工 ， 检 查 数据 的 完整 性 及 数据 的 一 
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致 性 ， 对 其 中 的 噪声 数据 、 缺 失 数据 进行 处 理 。 

(4) 数据 缩减 : 对 经 过 预 处 理 的 数据 ， 根 据 知 识 发 现 的 任务 对 数据 进行 再 处 理 ， 主 要 
通过 投影 或 数据 库 中 的 其 他 操作 减少 数据 量 。 

(5) 确定 KDD 的 目标 : 根据 用 户 的 要 求 ， 确 定 KDD 是 发 现 何 种 类 型 的 知识 ， 因 为 对 
KDD 的 不 同 要 求 会 在 具体 的 知识 发 现 过 程 中 采用 不 同 的 知识 发 现 算法 。 

(6) 确定 知识 发 现 算法 : 在 确定 KDD 目标 后 , 根据 这 个 目标 选择 合适 的 知识 发 现 算法 ， 
包括 选取 合适 的 模型 和 参数 ， 并 使 得 知识 发 现 算法 与 整个 KDD 的 评价 标准 相 一 致 。 

(7) 数据 挖掘 : 运用 选 定 的 知识 发 现 算法 ， 从 数据 中 提取 出 用 户 所 需要 的 知识 ， 这 些 
知识 可 以 用 一 种 特定 的 方式 表示 或 使 用 一 些 常用 的 表示 方式 ， 如 决策 树 、 产 生 式 规则 或 回 
归 方 程 等 。 

(8) 模式 解释 : 对 发 现 的 模式 进行 解释 。 在 此 过 程 中 ， 为 了 取得 更 为 有 效 的 知识 ， 可 
能 会 返回 到 前 面 的 处 理 步骤 中 反复 进行 前 面 的 KDD 过 程 ， 从 而 提取 出 更 有 效 的 知识 。 

(9) 知识 评价 ; 将 发 现 的 知识 以 用 户 能 理解 的 方式 呈现 给 用 户 ， 同 时 对 所 发 现 的 知识 
进行 检验 和 评估 。 

KDD 是 一 个 交互 的 、 和 迭代 的 、 多 步骤 处 理 过 程 。 一 次 KDD 并 不 一 定 得 到 理想 结果 ， 
因此 KDD 是 一 个 目标 和 数据 不 断 优化 的 过 程 。 可 以 在 当前 选择 的 知识 发 现 算法 不 变 的 情 
况 下 ， 对 学 习 参数 进行 调整 ， 并 重新 训练 和 评价 ， 直 到 达到 满意 的 结果 为 止 。 也 可 以 选择 
其 他 知识 发 现 算法 ， 对 同一 个 数据 集 进行 实验 ， 对 比 实验 经 过 ， 找 到 最 合适 的 知识 表示 形 
式 和 挖掘 方法 。 

在 以 上 过 程 中 ， 还 可 以 强调 专家 和 用 户 的 作用 ， 提 供给 他 们 参与 和 支持 KDD 过 程 的 
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3.1 经典 KDD 处 理 模 型 


2. CRISP-DM 过 程 模型 
另 一 种 在 应 用 中 已 经 得 到 公认 的 处 理 模 型 是 CRISP-DM(Cross Industry Standard Process 
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for Data Mining， 跨 行业 数据 挖掘 标准 流程 )。CRISP-DM 是 由 几 个 公司 组 成 的 联盟 开发 的 
与 具体 产品 无 关 的 数据 挖掘 模型 ， 并 首先 应 用 在 保险 领域 。 该 模型 包括 以 下 六 个 过 程 。 
(1) 商业 理解 (Business Understanding)。 关 注 的 焦点 是 项 目 目标 和 商业 前 景 的 需求 。 给 
出 了 数据 挖掘 问题 的 定义 和 最 初 的 计划 。 
(2) 数据 理解 (Data Understanding)。 重 点 是 数据 的 收集 和 假设 的 构造 。 
(3) 数据 准备 (Data Preparatiom)。 选 择 表 、 记 录 和 属性 ， 为 所 选 的 模型 工具 清洗 数据 。 
(4) 建 模 (Modeling)。 重 点 是 选择 和 应 用 一 个 或 多 个 数据 挖掘 技术 。 
(5) 评估 (Evaluation)。 通 过 对 发 现 的 结果 进行 分 析 ， 判 断 开发 的 模型 是 否 达到 了 商业 
目标 ， 同 时 确定 该 模型 未 来 的 使 用 价值 。 
(6) 部 署 (Deployment)。 若 模型 达到 了 商业 目标 ， 制 订 行动 计划 应 用 模型 。 
如 果 想 了 解 CRISP-DM 过 程 模 型 更 多 的 内 容 , 可 以 访问 Web 站 点 http://www.crisp-dm.org。 


3. 联机 KDD 模型 OLAM 


传统 的 数据 挖掘 过 程 一 般 存 在 着 如 下 问题 。 

(1) 尽管 在 经 典 模型 和 CRISP-DM 过 程 模型 中 可 通过 强调 人 的 参与 提高 交互 性 ， 但 大 
部 分 工作 还 是 由 机 器 自动 化 完成 ， 交 互 性 仍 显 不 足 ， 导 致 用 户 对 KDD 过 程 的 参与 困难 。 

(2) 数据 挖掘 算法 对 用 户 是 一 个 黑 盒子 , 用 户 对 于 KDD 中 发 现 的 内 容 还 是 缺乏 解释 和 
理解 ， 进 而 对 评估 结果 和 应 用 结果 带 来 困难 。 

(3) 一 旦 在 数据 准备 和 选取 阶段 建立 的 数据 集 完成 后 ， 该 数据 集 一 般 不 会 发 生变 化 ， 
KDD 过 程 只 能 一 次 对 这 一 个 数据 集 进行 挖掘 , 对 于 多 个 相关 数据 集 上 模式 的 比较 和 趋势 分 
析 实 现 很 困难 。 

联机 分 析 挖 掘 (On-line Analytical Mining)， 又 称 多 维 数 据 挖掘 ， 由 加 拿 大 Simon Fraser 
大 学 韩 家 炜 Jiawei Han) 教 授 等 在 数据 立方 体 (Data Cube) 的 基础 上 提出 的 一 种 数据 挖掘 技 
术 。OLAM(On-line Analytical Mining Model) 技 术 将 数据 挖掘 技术 (DM) 和 联机 分 析 处 理 技术 
(OLAP) 集 成 在 一 起 ， 在 多 维 数据 库 中 发 现 知识 ， 克 服 了 传统 的 数据 挖掘 过 程 存在 的 问题 。 


3.1.2 ”知识 发 现 软件 

按照 知识 发 现 软件 的 发 展 过 程 ， 可 将 知识 发 现 工具 分 为 独立 的 知识 发 现 软件 、 横 向 的 
知识 发 现 软 件 和 纵向 的 知识 发 现 软 件 。 

1. 独立 的 知识 发 现 软件 


独立 的 知识 发 现 软件 是 针对 某 一 种 数据 挖掘 算法 设计 开发 的 软件 。 这 种 软件 出 现在 数 
据 挖 掘 和 知识 发 现 研究 的 早期 ， 仅 具有 KDD 过 程 中 的 数据 挖掘 能 力 ， 其 中 的 数据 预 处 理 
等 工作 需要 用 户 手工 完成 。 目 前 这 种 软件 很 少见 


2. 横向 的 知识 发 现 软件 


横向 的 知识 发 现 软件 是 集成 化 的 知识 发 现 工具 集 ， 即 知识 发 现 的 通用 软件 ， 如 
Enterprise Miner、 Intelligent Miner、Cognos、SetMiner、Clementine、Warehouse Studio、 


RuleQuest、See5 等 。 
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3. 纵向 的 知识 发 现 软件 


纵向 的 知识 发 现 软件 是 指针 对 特定 的 应 用 提供 完整 的 数据 挖掘 和 知识 发 现 解决 方案 的 
软件 。 这 种 软件 与 具体 的 商业 逻辑 相 结合 ， 针 对 不 同 的 应 用 而 专门 指定 挖掘 算法 软件 ， 针 
对 性 强 , 只 能 用 于 一 种 应 用 , 可 以 处 理 特殊 的 数据 , 达到 特殊 的 目的 , 从 而 也 使 得 通过 KDD 
过 程 发 现 的 知识 的 可 靠 性 更 强 ， 更 能 发 挥 KDD 的 作用 。 


3.1.3 KDD 过 程 的 参与 者 


KDD 是 个 系统 性 项 目 ， 在 整个 KDD 过 程 中 ， 需 要 有 以 下 三 类 人 员 的 参与 和 支持 。 
1. 业务 分 析 人 员 


业务 分 析 人 员 的 主要 职责 是 解释 业务 对 象 ， 根 据 业 务 对 象 ， 确 定 用 于 数据 定义 和 数据 
挖掘 算法 的 业务 需求 。 业 务 分 析 人 员 一 般 具 有 较 强 的 应 用 领域 背景 ， 精 通 业 务 ， 对 KDD 
项 目的 目标 认识 充分 和 明确 。 


2. 数据 分 析 人 员 


数据 分 析 人 员 的 主要 职责 是 将 业务 需求 转化 为 知识 发 现 ， 应 用 数据 分 析 、 数 据 挖 掘 的 
各 种 算法 、 方 法 和 工具 及 软件 ， 选 择 合适 的 技术 ， 实 施 挖掘 会 话 ， 并 对 KDD 结果 进行 解 
释 和 评估 。 数 据 分 析 人 员 一 般 精通 数据 分 析 和 数据 挖掘 技术 。 

3. 数据 管理 人 员 

数据 管理 人 员 的 主要 职责 是 负责 按照 KDD 目标 提取 数据 。 数 据 管理 人 员 一 般 精 通 数 
据 管理 技术 ， 能 够 使 用 数据 库 技术 构造 KDD 的 目标 数据 集 。 

除 此 之 外 ， 知 识 发 现 专家 和 应 用 领域 的 用 户 也 是 整个 KDD 过 程 中 的 参与 者 。 专 家 在 
KDD 过 程 中 的 知识 评估 阶段 发 挥 着 重要 作用 , 而 用 户 在 整个 过 程 的 各 个 阶段 都 应 该 充分 地 
参与 。 如 目标 定义 阶段 ， 需 要 用 户 与 业务 分 析 人 员 合作 ， 充 分 准确 地 确定 项 目 目标 。 又 如 
在 评估 和 部 署 阶段 ， 从 用 户 的 角度 对 知识 进行 评估 ， 也 是 提高 知识 的 实用 性 的 一 种 途径 ， 
部 署 中 更 需要 用 户 的 配合 ， 才 能 真正 达到 应 用 的 目标 。 

下 面 以 CRISP-DM 过 程 模型 为 例 ， 进 一 步 讨 论 KDD 过 程 的 每 个 步骤 的 应 用 。 


3.2 ”KDD 过 程 模型 的 应 用 


3.2.1 步骤 1: 商业 理解 
商业 理解 包括 以 下 几 方 面 任 务 。 
1. 任务 一 一 确定 商业 目标 
业务 分 析 人 员 从 商业 的 角度 出 发 ,充分 理解 知识 发 现 所 关注 的 领域 ,了 解 用 户 的 需求 、 
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用 户 需求 目标 得 以 实现 的 制约 条 件 和 影响 因素 ， 记 录 可 获知 的 企业 商业 形势 方面 的 信息 ， 
以 及 描述 项 目 成 果 成 功 与 否 的 标准 。 

2. 任务 一 一 评估 形势 

查找 所 有 的 资源 、 制 约 条 件 、 假 设 以 及 确定 KDD 目标 和 项 目 方案 时 要 考虑 的 各 种 其 
他 因素 。 列 出 所 有 对 项 目 有 用 的 资源 ， 包 括 参与 KDD 过 程 的 各 类 人 员 、 数 据 摘要 和 数据 
来 源 数据 库 及 获取 数据 的 途径、 数据 处 理 的 软 硬 件 平台 等 。 列 出 项 目的 所 有 要 求 ， 包 括 项 
目的 进度 要 求 、 数 据 使 用 权限 、 数 据 集 的 大 小 、 项 目 结果 的 可 理解 性 和 质量 、 安 全 性 和 法 
律 问题 以 及 所 有 的 假设 等 。 


3. 任务 一 一 确定 KDD 目标 


商业 目标 是 以 商业 术语 表现 出 来 的 目标 ， 而 KDD 目标 是 从 技术 的 角度 描述 要 实现 的 
目标 。 例 如 “提升 手表 的 信用 卡 账单 促销 的 成 功率 ”可 能 是 个 商业 目标 ， 而 KDD 目标 可 
能 应 该 是 “根据 信用 卡 持 卡 人 的 收入 水 平 、 性 别 、 年 龄 、 以 前 是 否 购买 过 信用 卡 保险 或 促 
销 产 品 ， 来 预测 其 是 否 会 购买 手表 促销 产品 ”。 

可 以 列 出 一 份 将 要 达到 的 KDD 目标 清单 ， 描 述 提出 的 假设 或 所 期 望 的 结果 ， 以 及 局 
限 条 件 。 目 标的 确定 可 以 使 用 自 顶 向 下 的 分 析 方法 ， 将 目标 进行 逐 层 分 解 。 


4. 任务 一 一 制订 项 目 计划 

描述 实现 KDD 目标 进而 实现 商业 目标 的 计划 ， 计 划 中 应 包括 项 目 中 各 阶段 的 措施 、 
数据 挖掘 的 工具 和 技术 的 初步 选择 等 。 
3.2.2 步骤 2: 数据 理解 


数据 理解 包括 以 下 几 方面 任务 。 
1. 任务 一 一 收集 和 描述 数据 


获得 项 目 资 源 中 列 出 的 项 目 数据 ， 描 述 所 得 数据 ， 包 括 数据 格式 、 属 性 个 数 、 实 例 个 
数 、 属 性 特征 及 其 他 特征 。 


2. 任务 一 一 探查 数据 


对 数据 集中 的 数据 进行 进一步 探查 ， 包 括 找 出 更 具 重 要 性 的 属性 、 被 预测 的 因 变量 、 
几 个 属性 之 间 的 关系 、 简 单 肾 类 的 结果 、 重 要 的 潜在 的 簇 的 特征 、 简 单 统计 分 析 的 结果 等 ， 
得 到 对 数据 的 最 初 发 现 、 初 期 假设 和 这 些 发 现 对 KDD 过 程 下 面 步 又 的 影响 。 可 以 使 用 一 
些 图 表 来 可 视 化 展示 数据 特征 ， 或 形成 一 些 有 趣 的 数据 子 集 作 进一步 的 探查 ， 从 而 希望 全 
面 掌 握 数据 的 特征 。 

对 数据 是 否 存在 缺失 和 错误 进行 检查 ， 列 出 数据 质量 检查 结果 ， 包 括 出 现 缺失 和 错误 
的 数据 和 位 置 、 以 何 种 方式 出 现 、 是 否 为 普遍 现象 、 可 能 的 解决 办 法 等 。 
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3.2.3 步骤 3: 数据 准备 


数据 准备 阶段 将 产生 KDD 使 用 的 数据 集 。 该 阶段 包括 用 于 KDD 的 数据 的 抽取 、 检 查 
数据 的 完整 性 、 数 据 的 一 致 性 ， 包 括 消除 噪声 数据 、 推 导 计算 缺失 数据 、 消 除 重复 记录 、 
完成 数据 类 型 转换 等 。 数 据 抽取 和 预 处 理工 作 一 般 可 能 占 整个 KDD 过 程 的 70% 左 右 。 


1. 任务 一 一 抽取 数据 


在 一 个 或 多 个 人 类 专家 以 及 知识 发 现 工具 的 帮助 下 ， 选 择 一 组 要 进行 分 析 的 初始 数据 
来 创建 一 个 目标 数据 集 (Target Data Set)。 抽取 的 依据 是 与 KDD 目标 的 相关 性 、 数据 质量 和 
技术 限制 ， 如 数据 大 小 的 限制 和 数据 类 型 的 要 求 等 。 数 据 抽取 包括 属性 的 选择 和 实例 的 
选择 。 

1) 数据 源 

数据 对 于 一 个 KDD 项 目的 成 功 与 否 起 着 至 关 重 要 的 作用 。 数 据 抽 取 的 主要 数据 来 源 
一 般 为 三 种 一 一 传统 数据 库 、 数 据 仓 库 和 平面 文件 。 传 统 数据 库 是 一 种 操作 型 、 事 务 型 数 
据 库 ， 其 存储 的 满足 日 常事 务 处 理 的 数据 ， 多 数 为 关系 型 数据 结构 。 关 系 型 数据 库 
(Relational DataBase，RDB) 中 的 数据 都 是 用 一 个 由 行 与 列 组 成 的 关系 表 的 集合 来 表示 ， 表 
的 一 列 称 作 属 性 ， 表 的 一 行 存放 一 条 数据 记录 的 信息 ， 单 独 的 行 称 作 元 组 (Tuple)， 关 系 型 
表 中 的 所 有 元 组 用 一 个 或 多 个 属性 的 组 合 来 唯一 标识 。 为 消除 元 余 ， 提 高 数据 访问 效率 来 
满足 快速 的 事务 处 理 响应 要 求 ， 数 据 库 中 的 关系 表 都 被 规范 到 满足 一 定 的 范式 要 求 。 规 范 
化 (Standardization) 的 过 程 就 是 将 关系 表 进 行 模式 分 解 成 为 两 个 或 更 多 关系 表 。 而 数据 仓库 
是 为 满足 数据 分 析 的 要 求 ， 往 往 需 要 发 现 数据 中 国有 的 宛 余 性 ， 因 此 通常 需要 将 满足 一 定 
范式 的 关系 表 再 进行 连接 操作 来 重组 数据 ， 以 形成 满足 数据 挖掘 需要 的 形式 。 

DriverVehicle( 驾 驶 员 驾 驶 车 辆 ) 数 据 集 , 表 中 有 驾驶 员 的 Sex( 性 别 )、Age( 年 龄 )、Job( 职 
业 )、IncomeRange( 收 入 水 平 )、EduLevel( 受 教育 程度 )、Married( 婚 姻 状况 )、TypeID( 驾 驶 车 
辆 类 型 )、Year( 车 辆 使 用 年 数 )。DriveVehicle 数据 集 是 一 个 平面 结构 表 ， 它 提取 了 Drive 数 
据 库 ( 如 图 3.2 所 示 的 MS Access 数据 库 中 的 关系 图 ) 中 的 来 自 3 个 关系 表 中 的 数据 ， 包 括 
Driver 关系 表 中 的 驾驶 员 信 息 、Vehicle 关系 表 中 的 车 辆 信息 和 Drive 关系 表 中 驾驶 员 驾 驶 
车 辆 信息 。 在 第 4 章 “ 数 据 仓库 ” 中 将 详细 分 析 Drive 数据 库 ， 并 说 明 如 何 利用 反 规范 化 
来 重 构 传 统 数据 库 以 建立 数据 仓库 用 于 决策 支持 环境 。 


适 注意 :。 若 数据 来 源 为 多 个 数据 库 、 数 据 仓库 或 平面 文件 ， 则 在 抽取 合并 为 一 个 数据 
集 时 ， 数 据 的 一 致 性 处 理 是 必 不 可 少 的 。 例 如 ， 从 某 个 传统 数据 库 中 抽取 的 
Sex( 性 别 ) 数 据 的 类 型 为 数值 型 ， 其 中 用 1 表示 male、 用 0 表示 female， 而 从 
另 一 个 平面 文件 中 抽取 的 Sex( 性 别 ) 数 据 的 类 型 为 分 类 类 型 ， 其 中 用 M 表示 
male、 用 下 表示 female, 则 此 时 为 保证 目标 数据 集中 对 male 和 female 编码 的 
一 致 性 ， 需 要 按照 一 个 标准 进行 数据 转换 (Data Transformation)。 从 多 个 数据 
源 中 抽取 目标 数据 过 程 中 的 数据 转换 处 理 可 能 是 一 个 很 费时 的 过 程 。 
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Drive 
DriverID 
Vehicle 

depPoint 
desPoint 
StartTine 
EndTine 


3.2 Drive 数据 库 


2) 属性 和 实例 选择 

一 些 数据 挖掘 算法 对 能 够 处 理 的 数据 集 实例 个 数 或 属性 个 数 有 限制 ， 并 且 属 性 之 间 的 
相关 性 也 直接 影响 着 数据 挖掘 的 结果 ， 可 以 通过 删除 一 些 相关 性 较 强 的 元 余 属 性 来 改善 数 
据 挖 掘 的 质量 。 

属性 选择 最 简单 的 方法 是 选择 所 有 属性 的 集合 的 每 个 子 集 来 生成 数据 集 ， 进 行 数据 挖 
气 建 模 , 计算 每 个 模型 的 优 度 (Goodness) 进 行 比较 , 模型 优 度 值 最 高 的 属性 组 合 为 最 佳 的 属 
性 选择 方案 。 这 个 方法 的 确 能 够 得 到 最 佳 属性 组 合 ， 但 时 间 代 价 太 大 。 试 想 一 个 具有 个 
属性 的 集合 ， 其 子 集 个 数 为 2”! 个 。 使 用 这 些 属性 组 合 的 子 集 生 成 数据 集 进行 建 模 ， 并 进 
行 优 度 检验 ， 时 间 代价 太 大 。 通 常情 况 下 ， 可 以 采用 以 下 方法 进行 属性 的 筛选 。 

(1) 淘汰 属性 。 

目前 一 些 统计 技术 和 非 统计 技术 本 身 就 包含 属性 选择 技术 ， 属 性 选择 是 模型 创建 过 程 
中 的 一 个 环节 。 但 同时 也 存在 一 些 数据 挖掘 算法 ， 如 神经 网 络 和 最 近邻 分 类 器 (Nearest 
Neighbor Classifier) 在 创建 模型 时 ， 假 设 数 据 集 的 所 有 属性 的 重要 性 相同 ， 这 时 就 需要 在 数 
据 挖掘 过 程 开 始 之 前 进行 属性 选择 ， 包 括 计算 数据 集中 数值 属性 的 相关 性 ， 去 掉 与 其 他 属 
性 相关 性 较 强 的 宛 余 属性 作为 输入 属性 ， 淘 汰 这 些 对 于 类 成 员 资格 不 具有 预测 性 的 、 重 要 
性 值 较 低 的 属性 ， 来 改善 数据 挖掘 的 质量 ， 对 于 分 类 类 型 数据 ， 任 何 包含 值 六 的 属性 ， 只 
要 大 多 数 实例 用 vi 作为 它们 的 属性 值 ， 则 vi 对 各 个 类 的 区 分 能 力 就 降低 了 ， 则 可 以 考虑 将 
其 淘汰 ， 对 于 数值 型 属性 的 重要 性 值 ， 在 有 指导 的 学 习 中 ， 可 以 通过 比较 均值 和 标准 差 值 
来 确定 。 对 于 无 指导 的 聚 类 ， 由 于 不 存在 预定 义 的 类 而 无 法 计算 数值 属性 的 重要 性 。 但 是 ， 
可 以 用 可 能 的 属性 选择 子 集 进行 实验 ， 并 用 合适 的 艇 质量 度量 指标 来 帮助 确定 一 组 最 佳 的 
数值 属性 。 

(2) 构造 属性 。 

对 于 一 些 预测 价值 较 低 的 属性 ， 有 时 可 以 和 其 他 属性 结合 起 来 生成 新 的 具有 高 预测 价 
值 的 属性 。 创 建新 属性 的 方法 一 般 有 三 种 : 新 属性 值 可 以 是 现 有 的 两 个 属性 值 之 比 、 之 差 
或 现 有 两 个 属性 值 的 增长 百分比 或 下 降 百分比 例如 ,假设 有 两 个 属性 值 vj 和 vw, 其 中 w<v， 
世相 对 于 vi 的 增长 百分比 的 计算 如 式 (3.1) 所 示 。 
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一 


Percent Inctease(vy, —v,)= 


G.D 


Vv 


式 中 若 vi>ww， 则 用 vi 减 去 v。 再 除 以 v1， 得 到 vw 相对 于 vi 的 下 降 百分比 。 

(3) 实例 选择 。 

对 于 有 指导 的 学 习 ， 训 练 数据 一 般 从 数据 集中 随机 选取 。 影 响 这 个 随机 过 程 的 唯一 标 
准 是 ， 选 择 的 实例 要 确保 代表 了 每 一 个 要 学 习 的 概念 类 。 决 策 树 算法 就 是 典型 的 在 训练 阶 
段 随机 选取 实例 的 数据 挖掘 技术 。 它 选取 训练 实例 的 随机 子 集 来 建立 最 初 的 分 类 器 ， 用 剩 
余 训 练 实 例 作 为 检验 集 实例 来 检验 分 类 器 。 然 后 ， 那 些 被 决策 树 错误 分 类 的 实例 被 加 入 训 
练 数据 的 子 集 中 。 重 复 该 过 程 直到 训练 集中 的 数据 被 用 完 或 已 建成 了 一 个 能 正确 分 类 所 有 
训练 数据 的 分 类 器 。 

然而 ， 对 于 那些 不 创建 概 化 分 类 模型 的 数据 挖掘 算法 ， 不 能 使 用 上 述 实例 选择 方法 。 
这 种 不 创建 分 类 模型 的 分 类 器 被 称 为 基于 实例 的 分 类 器 (Instance-Based Classifier)， 又 称 为 
“懒惰 分 类 器 ”， 典 型 的 有 KK-nearest 数据 挖掘 算法 建立 的 分 类 器 。 其 基本 方法 是 将 每 个 类 
的 代表 性 实例 所 组 成 的 一 个 子 集 保存 起 来 ， 检 验 实例 通过 与 所 保存 实例 的 属性 值 进 行 比 较 
来 分 类 ， 检 验 实例 被 放 到 代表 性 实例 与 其 最 为 相似 (“距离 ”最 短 ) 的 类 中 。 显 然 ， 用 于 代 
表 每 个 类 的 实例 决定 了 模型 的 预测 准确 度 。 代 表 性 实例 可 以 利用 实例 的 典型 性 值 作为 依据 
来 进行 选取 。 

对 于 无 指导 聚 类 ， 也 可 以 通过 确定 每 个 域 实例 的 典型 性 值 ， 删 除 那些 最 不 典型 的 域 实 
例 来 更 好 地 聚 类 定义 明确 的 簇 。 高 质量 的 簇 形成 后 , 再 将 那些 非典 型 实例 提交 给 聚 类 系统 ， 
此 时 ， 聚 类 模型 有 两 种 选择 ， 要 么 用 这 些 实例 构造 新 的 徐 ， 要 么 将 这 些 实例 放 入 已 有 的 
簇 中 。 

抽取 数据 是 面向 挖掘 目标 进行 的 ， 这 样 被 抽取 出 来 的 数据 是 中 性 的 ， 可 以 经 过 进一步 
的 数据 清洗 和 转换 来 适合 数据 挖掘 算法 的 要 求 。 

2. 任务 一 一 清洗 数据 

根据 所 选 的 数据 挖掘 技术 的 要 求 ， 对 数据 进行 预 处 理 ， 从 而 提高 数据 质量 。 数 据 清洗 
(Data Cleaning) 是 KDD 过 程 中 的 数据 预 处 理 (Data Preprocessing) 工 作 。 

数据 清洗 包括 检查 噪声 数据 和 缺失 数据 ， 进 行 噪声 数据 的 处 理 ， 确 定 对 缺失 数据 的 处 
理 办 法 和 说 明 时 间 序 列 信息 的 方式 。 理 想 状态 下 ， 数 据 预 处 理 的 大 多 数 工作 应 该 在 将 数据 
永久 地 存储 到 数据 仓库 中 之 前 完 

1) 噪声 数据 处 理 

噪声 (Noise) 代 表 属性 值 中 的 随机 错误 。 在 所 有 大 的 数据 集中 ， 噪 声 以 各 种 形式 和 排列 
方式 出 现 。 对 噪声 数据 通常 要 解决 的 问题 包括 如 何 发 现 和 处 理 重复 记录 和 错误 的 属性 值 ， 
对 数据 应 采取 什么 样 的 数据 平滑 操作 ， 以 及 如 何 发 现 和 处 理 孤 立 点 。 

重复 记录 是 数据 集中 两 条 记录 在 部 分 属性 值 上 不 同 ， 但 实际 上 是 一 条 数据 的 记录 。 如 
学 校 名 称 为 “北京 联合 大 学 ”和 “北京 联 大 ”其 实 是 一 个 学 校 ， 但 因为 名 称 不 同 ， 而 作为 
两 条 记录 存储 在 数据 集中 ， 则 其 中 的 一 条 就 是 重复 记录 。 
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查找 错误 的 属性 值 是 大 型 数据 集 所 面临 的 一 个 重要 问题 。 错 误 属 性 值 的 产生 分 为 两 种 
情况 ,一 种 情况 是 输出 了 错误 的 属性 值 ， 如 Age( 年 龄 ) 属 性 值 为 0 的 输入 。 另 一 种 情况 是 缺 
失 数 据 造 成 的 。 因 某 个 属性 值 缺失 ， 而 使 用 了 默认 值 来 填充 ， 也 可 能 造成 年 龄 为 0 的 情况 。 
一 般 情况 下 ， 这 种 异常 属性 值 可 通过 计算 该 属性 的 均值 和 标准 差 来 发 现 。 但 当 数 据 集 实例 
较 多 ， 而 属性 值 发 生 错 误 的 实例 占 很 少 比例 时 ， 发 现 这 种 错误 将 会 非常 困难 。 

重复 记录 的 处 理应 该 在 数据 抽取 阶段 进行 ， 可 使 用 一 些 数据 清洗 工具 来 完成 。 目 前 的 
数据 库 技术 通过 约束 某 个 属性 的 值 域 ， 就 能 尽 可 能 降低 直接 输入 错误 和 缺失 数据 自动 填充 
默认 值 带 来 的 属性 值 错 误 。 除 此 之 外 ， 一 般 情 况 下 ， 利 用 数据 平滑 技术 来 消除 噪声 数据 。 
如 使 用 分 箱 (Binning) 方 法 检测 该 数据 周围 的 属性 值 来 进行 局 部 数据 平滑 ; 利用 聚 类 技术 检 
测 孤立 点 数据 ， 对 它们 进行 修正 ;利用 回归 方程 探测 和 修正 噪音 数据 等 。 

数据 平滑 (Data Smoothing) 是 一 种 减少 数据 中 噪声 的 处 理 技术 。 在 KDD 的 数据 预 处 理 
过 程 中 经 常 使 用 分 箱 方法 、 均 值 平 滑 、 中 值 平 滑 、 函 数 平滑 、 线 性 拟 合 方法 等 。 

分 箱 方法 是 将 数据 进行 排序 ， 如 3、6、12、22、24、26、27、30、30， 将 这 九 个 数 进 
行 “ 等 高 度 ” 划分 成 三 个 箱 。 每 个 箱 中 的 数据 个 数 相同 , 即 Bini={3.6.12}，Bin2= {22,24.26}， 
Bins={27,30,30} 。 可 以 根据 箱 中 的 数据 求 均 值 进 行 平 滑 ， 则 三 个 箱 中 的 数据 值 变换 为 
Bini={7.7.7}，Bin2={24.24.24}，Bins={29.29.29}。 也 可 以 将 箱 中 的 最 大 值 和 最 小 作为 箱 的 
边界 ， 箱 中 的 其 他 数据 值 被 与 之 最 接近 的 边界 值 蔡 换 ， 则 三 个 箱 中 的 数据 值 变换 为 
Bini={3,3.12}，Bin2={24.22.26}，Bins={27.30.30}。 一 些 分 类 器 ， 如 神经 网 络 ， 在 分 类 过 程 
中 用 函数 完成 数据 平滑 处 理 。 在 回归 分 析 中 ， 使 用 拟 合 函数 进行 数据 平滑 。 还 有 一 些 分 类 
器 使 用 平均 值 和 中 值 进行 数据 平滑 。 

另 一 种 常用 的 数据 平滑 技术 是 使 用 聚 类 分 析 技 术 发 现 并 尽 可 能 从 数据 集中 删除 非典 型 
实例 ， 即 孤立 点 ， 它 们 被 认为 是 异常 数据 ， 如 图 3.3 所 示 。 
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图 3.3 ”基于 聚 类 分 析 的 孤立 点 检测 


2) 缺失 数据 处 理 

数据 缺失 有 两 种 可 能 的 原因 ， 一 种 是 该 属性 应 该 有 值 ， 但 遗漏 了 ， 如 Sex( 性 别 ) 属 性 的 
缺失 就 属于 这 种 情况 。 另 一 种 是 可 能 是 遗漏 ， 也 可 能 本 来 这 个 实例 的 属性 值 就 无 法 填写 。 
如 IncomeRange 属性 值 若 缺失 了 就 属于 这 种 情况 。IncomeRange 值 可 能 是 遗漏 了 ， 也 可 能 
是 该 人 失业 没有 收入 ， 此 处 就 是 一 个 未 填 的 数据 项 。 

一 些 数据 挖掘 技术 能 够 直接 处 理 缺 失 值 ， 但 是 更 多 的 分 类 器 要 求 所 有 实例 的 所 有 属性 
都 必须 有 值 ， 所 以 需要 在 应 用 数据 挖掘 算法 处 理 数据 前 处 理 缺 失 数据 。 对 于 缺失 数据 有 以 
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下 几 种 处 理 办 法 。 


忽略 含有 缺失 值 的 记录 : 当 数 据 集 只 有 少量 实例 包含 有 缺失 数据 ， 并 且 可 以 确定 
缺失 值 是 因为 要 表达 的 信息 未 能 表达 ， 采 取舍 弃 该 条 记录 的 方法 。 

手工 填补 缺失 值 : 此 方法 非常 耗 时 ， 对 于 数据 集中 包含 大 量 含有 缺失 值 的 实例 时 ， 
可 行 性 较 差 。 

利用 均值 代替 缺失 值 。 如 所 有 实例 的 平均 IncomeRange 为 30000， 则 使 用 这 个 均 
值 代替 所 有 缺失 的 收入 水 平 值 。 在 大 多 数 情况 下 这 是 处 理 数值 属性 的 一 种 理想 方 
法 。 其 他 的 方法 ， 例 如 用 0 或 任意 给 定 的 或 大 或 小 的 值 来 代替 缺失 的 数值 数据 都 
不 是 合适 的 选择 。 

利用 同类 均值 填补 缺失 属性 值 。 如 同样 是 填补 IncomeRange 缺失 值 ， 可 考虑 使 用 
相同 职业 的 驾驶 员 的 平均 收入 来 代替 该 类 中 所 有 实例 的 incomeRange 属性 缺失 值 。 
使 用 全 部 常量 填补 缺失 值 。 将 缺失 的 属性 值 使 用 一 个 常数 ， 如 Unknown 来 填补 。 
这 种 方法 有 很 大 的 缺陷 , 特别 是 在 有 大 量 缺 失 项 的 情况 下 , 用 相同 常数 进行 填补 ， 
会 误导 数据 挖掘 算法 ， 影 响 KDD 结果 的 质量 。 

利用 最 可 能 的 值 填 补缺 失 值 。 可 以 利用 回归 分 析 、 贝 叶 斯 分 析 、 决 策 树 或 神经 网 
络 分 类 器 等 方法 进行 合理 推断 ， 预 测 出 该 条 实例 这 个 缺失 属性 最 有 可 能 的 取 值 。 
方法 是 将 有 缺失 值 的 属性 作为 输出 属性 ， 使 用 有 指导 学 习 来 判断 或 预测 缺失 数据 
的 可 能 取 值 ， 使 用 含有 该 属性 已 知 值 的 实例 建立 分 类 模型 。 然 后 ， 用 创建 的 模型 
对 含有 缺失 值 的 实例 进行 分 类 或 预测 。 与 其 他 方法 相 比 ， 这 种 方法 最 大 限度 地 利 
用 了 当前 的 已 知 信息 来 帮助 预测 出 缺失 的 数据 ， 对 于 缺失 项 的 填补 更 具有 依据 。 


3. 任务 一 一 变换 数据 


数据 变换 (Data Transformation) 包 括 确定 平滑 数据 和 数据 标准 化 的 方法 ， 以 及 数据 类 型 
的 变换 。 一 方面 , 许多 数据 挖掘 工具 包括 神经 网 络 和 一 些 统计 方法 不 能 处 理 分 类 类 型 数据 ， 
因此 将 分 类 数据 变换 为 等 价 的 数值 数据 是 一 种 常见 的 数据 转换 。 另 一 方面 ， 一 些 数据 挖掘 
技术 不 能 处 理 某 些 初始 格式 的 数值 数据 。 例 如 ， 大 多 数 决策 树 算法 要 将 数值 数据 转换 为 离 
散 数据 ， 方 法 是 进行 数据 分 类 和 采用 数据 项 的 二 元 分 裂 。 

常用 的 数据 变换 是 数据 标准 化 (Normalization), 即 改变 数据 值 使 之 落 在 一 个 指定 的 范围 
内 。 如 神经 网 络 这 样 的 分 类 器 要 求 所 有 输入 属性 值 缩 放 到 [0.1] 区 间 ， 则 效果 更 好 。 标 准 化 
对 于 基于 距离 的 分 类 器 特别 有 吸引 力 ， 因 为 通过 标准 化 属性 值 ， 值 域 很 宽 的 属性 不 太 可 能 
大 于 初始 范围 更 小 的 属性 。 下 面 是 四 种 常用 的 标准 化 方法 。 


十 进 制 缩放 (Decimal Scaling): 将 数据 值 除 以 10 的 整 次 方 。 例 如 ， 若 某 属性 的 取 
值 范围 ( 旧 域 ) 为 [-1000.1000] 之 间 ， 则 可 以 用 每 个 值 除 以 1000 使 得 取 值 范围 变 为 
[-1,1]( 新 域 ) 之 间 。 

Min-Max 标准 化 (Min-Max Normalization): 适用 于 属性 的 最 小 值 和 最 大 值 都 已 知 
的 情况 。 其 计算 公式 为 
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原 值 - 旧 域 最 小 值 (新 域 最 大 值 -新 域 最 小 值 )+ 新 域 最 小 值 
旧 域 最 大 值 - 旧 域 最 小 值 
@ 7Z-Score 标准 化 (Normalization Using Z-scores)。 将 属性 值 转换 为 标准 值 。 此 方法 是 
将 该 值 减 去 属性 平均 值 (/) 再 除 以 属性 的 标准 差 (o)， 公 式 如 式 (3.3) 所 示 : 
新 值 = 人 到 G3) 


@ ”对 数 标准 化 (Logarithmic Normalization)。 用 一 些 值 的 以 2 为 底 的 对 数值 代替 原 值 
可 以 缩放 值 域 ， 而 又 不 丢失 信息 。 例 如 ， 以 2 为 底 的 64 的 对 数 为 6， 即 2=64， 
则 使 用 6 来 代替 64。 


3.2.4 步骤 4: 建 模 


新 值 = G2) 


1. 任务 一 一 选择 建 模 技术 


这 是 建 模 的 第 一 步 , 选择 一 种 或 多 种 建 模 技术 , 如 C4.5 决策 树 或 者 前 馈 神经 网 络 技术 。 
在 选择 建 模 技术 时 ， 要 考虑 两 个 因素 : 一 是 数据 的 特点 ; 二 是 用 户 或 实际 运行 系统 的 要 求 ， 
可 能 是 用 描述 型 的 、 容 易 理 解 的 知识 来 表示 挖掘 出 的 规则 。 还 要 了 解 对 数据 的 限制 条 件 ， 
如 数据 分 布 、 不 允许 有 缺失 数据 、 必 须 是 分 类 类 型 的 输入 变量 等 。 


2. 任务 一 一 检验 设计 


在 正式 建 模 之 前 ， 需 要 制订 一 个 方案 ， 来 检验 模型 的 质量 和 有 效 性 。 例 如 ， 建 立 分 类 
器 后 ， 通 常 使 用 检验 集 分 类 错误 率 (Error Rates) 作 为 检验 模型 质量 的 度量 方法 。 其 方法 是 将 
数据 集 分 为 训练 集 和 检验 集 两 部 分 ， 使 用 训练 集 建立 模型 ， 使 用 检验 集 检验 模型 的 质量 。 
所 以 方法 中 应 包括 训练 集 、 检 验 集 和 评估 模型 的 描述 ， 以 及 如 何 划 分 训练 集 和 检验 集 更 
为 合理 。 


3. 建 模 和 评估 


在 准备 好 的 数据 集中 ， 使 用 建 模 工具 和 建 模 技 术 ， 正 式 进行 数据 挖掘 (Data Mining) 实 
验 ， 建 立 一 个 或 多 个 最 佳 模型 ， 记 录 建 模 过程 中 的 相关 参数 ， 以 及 这 些 参 数 设置 的 理由 ， 
并 对 模型 进行 描述 和 解释 ， 如 进行 一 些 可 视 化 工作 ， 帮 助 用 户 理解 数据 挖掘 的 结果 。 

知识 发 现 的 实验 性 和 和 迭代 性 在 KDD 过 程 的 第 4 步 和 第 5 步 中 表现 得 尤为 突出 。 以 下 
是 建立 一 个 有 指导 学 习 或 无 指导 聚 类 模型 的 典型 步 又。 

(1) 从 准备 好 的 数据 集 实例 中 选择 训练 和 检验 数据 。 

(2) 选择 一 组 输入 属性 。 

(3) 如 果 学 习 是 有 指导 的 ， 选 择 一 个 或 多 个 输出 属性 。 

(4) 选择 学 习 参 数 的 值 。 

(5) 调用 数据 挖掘 工具 建立 模型 。 

(6) 数据 挖掘 完成 ， 对 模型 进行 评估 。 如 果 结 果 不 够 理想 ， 可 以 多 次 重复 上 述 步骤 。 
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3.2.5 评估 


评估 包括 以 下 两 个 任务 。 
1. 任务 一 一 评估 结果 
此 步骤 的 评估 与 上 一 节 中 针对 模型 的 评估 不 同 ， 这 号 


中 对 模型 加 以 检验 。 
2. 任务 一 一 回顾 和 确定 下 一 步 方 案 
对 整个 KDD 过 程 进行 总 结 ， 根 据 评估 结果 和 总 结 ， 


数据 挖掘 工程 师 要 根据 专业 领域 的 知识 、 数 据 挖掘 成 功 的 标准 以 及 需要 的 检验 设计 来 
解释 结果 。 数 据 挖掘 工程 师 只 是 从 技术 的 角度 上 判断 模型 应 用 和 技术 发 现 的 成 功 与 否 ， 他 
还 需要 与 业务 分 析 师 及 领域 专家 一 起 对 模型 的 商业 应 用 结果 进行 评估 。 


有 的 评估 是 对 整个 KDD 项 目的 评 


估 ， 是 从 商业 角度 评估 模型 的 价值 是 否 符合 商业 目标 。 可 以 在 条 件 允 许 的 情况 下 ， 在 实践 


确定 下 一 步 的 任务 : 项 目 是 应 该 


结束 而 进入 到 下 一 步 的 部 署 阶段 呢 ， 还 是 重复 前 面 的 步骤 建立 新 的 模型 。 


3.2.6 部署 和 采取 行动 


部 署 和 采取 行动 包括 以 下 几 方 面 任务 。 

1. 任务 一 一 制订 部 署 方 案 

制定 部 署 策 略 ， 包 括 必要 的 步骤 及 相应 的 实施 办 法 。 
2. 任务 一 一 制订 监控 和 维护 方案 

准备 监控 策略 ， 避 免 数 据 挖掘 结果 被 长 期 误 用 。 

3. 任务 一 一 采取 行动 (Taking Action) 


对 KDD 过 程 中 发 现 的 知识 具体 化 ， 并 直接 用 于 解决 合适 的 问题 。 数 据 挖掘 的 最 终 目 
标 是 应 用 所 学 到 的 知识 。 正 是 在 这 一 点 上 看 到 了 投入 得 到 了 回报 。 采 取 的 行动 可 能 是 撰写 
关于 所 发 现 知识 的 报告 或 技术 性 文章 ， 实 施 货架 工程 ， 开 展商 业 促销 活动 ， 金 融 风 险 评估 ， 


金融 欺诈 的 侦 测 ， 推 动 新 的 科学 研究 等 。 


3.3 实验 : KDD 案例 


本 节 给 出 一 个 KDD 实验 案例 ， 进 一 步 描述 KDD 过 程 中 各 步骤 的 任务 和 结果 。 


1. 实验 目的 


使 用 KDD 过 程 模型 ， 通 过 建立 信用 卡 筛选 分 类 模型 ， 对 新 申请 信用 卡 客户 进行 评估 ， 
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决定 是 否 接受 其 信用 卡 申 请 。 通 过 实验 重点 掌握 KDD 的 数据 准备 、 建 模 和 评估 过 程 ， 了 
解 和 体会 KDD 的 和 欠 代 过 程 。 


2. 实验 数据 源 


实验 数据 来 自 UCI 的 Credit Screening Databases 。 

数据 集 较 好 地 混合 了 连续 数值 型 属性 、 分 类 类 型 属性 ， 还 包含 了 部 分 缺失 数据 。 并且， 
由 于 属性 和 值 是 无 意义 的 符号 ， 所 以 不 能 从 属性 名 称 和 属性 值 上 观察 出 属性 的 重要 性 ， 即 
初始 情况 下 ， 认 为 每 个 属性 的 重要 程度 相同 。 


3. 实验 方法 


简化 CRISP-DM 模型 ， 使 用 包括 确定 目标 、 准 备 数据 ， 建 模 和 评估 四 个 步骤 的 KDD 
过 程 模型 ， 完 成 KDD 任务 。 


4. 实验 过 程 


(1) 步骤 1: 确定 目标 。 

通过 有 指导 的 学 习 技术 ， 建 立信 用 卡 筛选 分 类 模型 ， 并 评估 该 模型 。 在 模型 不 理想 的 
情况 下 ， 重 新 进行 实验 ， 利 用 聚 类 技术 检验 输入 属性 对 模型 质量 的 影响 。 建 立 理想 模型 后 ， 
使 用 该 模型 对 新 申请 信用 卡 客户 进行 评估 ， 决 定 是 否 接受 其 申请 。 

(2) 步骤 2: 准备 数据 。 

数据 集 名 为 CreditScreening.xls， 选 择 所 有 690 个 实例 和 16 个 属性 ， 其 中 15 个 属性 作 
为 输入 属性 ， 第 16 个 属性 Class 作为 输出 属性 ， 生 成 .csv 文件 ， 加 载 到 Weka。 

(3) 步骤 3: 建 模 。 

使 用 Weka 进行 有 指导 的 学 习 训练 ， 选 择 C4.5 数据 挖掘 算法 ， 在 Weka 中 名 为 J48， 
将 test options 设置 为 Percentage split， 并 使 用 默认 百分比 66%。 选 择 class 为 输出 属性 ， 并 
选中 classifier evaluation options 对 话 框 中 的 Output predictions 复 选 框 ， 以 显示 在 检验 集 上 
的 预测 结果 。 数 据 挖掘 结果 如 图 3.4 所 示 。 

(4) 步骤 4: 评估 。 

通过 检查 图 3.4 所 示 的 输出 结果 , 得 出 检验 集 分 类 正确 率 为 84.3%， 是 一 个 不 算 太 差 的 
结果 ， 可 以 用 于 评估 新 申请 信息 卡 客户 。 

然而 若 希望 得 到 更 高 质量 的 分 类 器 ， 可 以 作 如 下 考虑 。 

@ ”修改 算法 参数 。 

@ ”进行 属性 评估 。 

@ ”进行 实例 选择 。 

@ ”选择 其 他 有 指导 学 习 算法 。 

其 中 对 于 在 尝试 对 此 修改 算法 参数 ， 而 分 类 器 质量 未 得 到 明显 改善 的 情况 下 ， 可 考虑 
进行 属性 评估 。 即 检查 输入 属性 是 否 能 够 很 好 地 定义 数据 中 所 包含 的 类 。 如 果 输 入 属性 很 
好 地 定义 了 输出 类 ， 则 将 看 到 实例 很 自然 地 被 聚 类 到 已 知 的 类 中 。 所 以 通过 无 指导 聚 类 技 
术 ， 可 以 对 输入 属性 进行 评估 。 步 又 如 下 。 
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Classifier output 


228 1:+ 1: *0.792 0.208 
229 1:+ 1: *0.792 0.208 
230 2:- 2:- 0.057 *0.943 
231 2:- 2:- 0.057 *0.943 
232 2;- 2:- 0.057 *0.943 
233 1:+ 2:- + 0.057 *0.943 
234 1:+ 1: *0.792 0.208 
235 1:+ 1: *0.792 0.208 


=== Evaluation on test split === 
‘=== Summary === 


Correctly Classified Instances 198 84.2553 $ 
Incorrectly Classifled Insatances 37 15.7447 $ 


Kappa stratistic 0.6845 
Mean absolute error 0.2377 
Roor mean squared error 0.3593 
Relative absoluce error 48.1816 $ 
Root relative squared error 72.4948 $ 
Toral Nuzber of Instances 235 


=== Detailed Accuracy By Class === 


TP Rate FP Rate Precision Recall F-Measure ROC Area Class 


0.891 0.194 0.776 0.891 0.829 0.849 需 
0.806 0.109 0.908 0.806 0.854 0.849 - 
Weighted Avg. 0.843 0.145 0.851 0.843 0.843 0.849 


=== Confusion Matrix === 
a b <-- classified as 


90 111 a=+ 
26 108 | b=- 


图 3.4 ”分 类 模型 训练 结果 


(1) 加 载 信用 卡 筛 选 数 据 集 到 Weka， 切 换 到 Cluster 选项 卡 ， 选 择 Simple KMeans 算 
法 ， 如 图 3.5 所 示 。 
Plusterer 
PB veka 
SB clusterers 
. 
® Cobveb 
® DBSCAN 
© EN 
® FarthestFirst 
® FilteredClusterer 
© HierarchicalClusterer 
® NakeDensityBasedClusterer 
® OPTICS 


图 3.5 选择 简单 K-means 聚 类 算法 


(2) 设置 算法 参数 ， 显 示 标 准 差 ， 迭 代 次 数 设 置 为 5000 次 ， 其 他 保持 默认 ， 注 意 簇 的 
个 数 默认 情况 下 为 2， 与 需要 相符 。 最 终 的 参数 设置 如 图 3.6 所 示 。 

(3) 在 Cluster mode 面板 中 设置 评估 数据 为 Use training set， 并 单 击 Ignore attributes 按 
钮 ， 选 择 忽略 class 属性 。 

(4) 单 击 Start 按钮 ， 执 行 聚 类 ， 结 果 如 图 3.7 所 示 。 观 察 结果 ， 发 现 309 个 实例 被 分 
类 到 Cluster0 中 ，381 个 实例 被 分 类 到 Clusterl 中 ， 形 成 了 两 个 大 小 近似 相等 的 徐 ， 且 与 实 
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际 分 类 情况 极其 接近 ， 可 以 认为 聚 类 所 形成 的 秘 具 有 较 高 的 质量 ， 初 步 断 定 输入 属性 对 于 
实例 的 分 类 能 力 应 该 是 较 强 的 。 


Clusterer output 


| Cluster cenrroids: 
Clusrer# 


Attribute Full Data 0 1 
veka. clusterers. SinplekKNeans | (690) (309) (381) 
About _ -一 
Cluster data using the kmeans algonthm [Ere | ep , 2 4 
| b 480 ( 69%) 204 ( 664) 276 ( 724) 
| Capabilities | a 210 ( 30%) 105 ( 33%) 105 ( 274) 
| 
displayStdDevs [True ~ De .0 pai 
30.83 1(o 1(0o 0o( 0 
distancegunction [ Choose JEuclideanDistance -R fi 58.67 1 ( 0) 1( 0%) 0( 0 
24.5 6( 0 2(09) 4( 14) 
dontReplacellissingValues [False = 27.83 sto 4 1( 04) 
20.17 3( 0%) 21( 0%) 1( 04) 
0000 32.08 2(o 1(0) 1( 0 
i py 33.17 5 ( 08) $40 10 1 ( 0) 
22.92 4008) 0o( 0 4( 14) 
preservelInstancesOrder [False ~ 54.42 1( 0 of(o) 1( 0 
42.5 1(o 1(0) 0( ot 
0 22.08 4(0) of oy 4 13) 
29.92 1( 04) 0 (1 04) 1( 0%) 
[open... | save... || SE |]L_cancel | 38.25 200) 10o) 1(o) 
图 3.6 设置 K-means 聚 类 算法 的 参数 图 3.7 聚 类 结果 


可 以 对 属性 作 进 一 步 分 析 ， 包 括 以 下 两 方面 。 

(1) 对 缺失 属性 值 进行 检测 。 

(2) 对 所 有 属性 的 分 类 能 力 进行 检测 ， 找 出 具有 较 大 分 类 能 力 的 几 个 属性 和 具有 较 小 
分 类 能 力 的 属性 。 期 望 利用 那些 具有 较 大 分 类 能 力 的 属性 ， 重 新 进行 有 指导 的 学 习 ， 建 立 
更 高 质量 的 分 类 模型 。 

对 于 缺失 属性 值 的 检测 结果 ， 可 以 通过 查看 Weka 的 Preprocess 预 处 理 选项 卡 ， 选 择 
不 同 的 属性 ， 查 看 Missing 项 。 如 图 3.8 所 示 的 是 six 属性 的 缺失 数据 的 检测 情况 ，Missing 
显示 该 属性 具有 3 个 缺失 值 。 但 通过 查看 数据 集 数据 (如 图 3.9 所 示 )， 发 现 该 属性 实际 上 有 
9 个 缺失 值 ，Weka 并 未 将 所 有 缺失 值 检测 出 来 。 


Selected attribute 
Type: Noninal 
NSSine 3 (ON Distiuct; 15 Uniuuc: 0 (0%) 


No. Label Count 


Sa 境 
lr 3 

5lee 十 
6lk 51 
了 |c 137 
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3.8 ”Weka 检测 出 的 缺失 属性 值 


对 于 所 有 属性 的 分 类 能 力 的 检测 ， 可 通过 查看 Clusterer output 窗口 中 每 个 属性 的 每 个 
取 值 在 两 个 簇 中 的 分 布 来 初步 确定 。 如 图 3.7 中 ， 属 性 one 的 一 个 取 值 b 分 别 在 Cluster0 
和 Clusterl 中 出 现 了 204 和 276, 分 别 占 在 Cluster0 和 Clusterl 中 出 现 的 所 有 one 取 值 的 66% 


| 


数据 榨 杨 号 论 


和 72%; 属性 one 的 另 一 个 取 值 a 分别 在 Cluster0 和 Clusterl 中 出 现 了 105 和 105, 分 别 占 


在 Cluster0 和 Clusterl 中 出 现 的 所 有 one 取 值 的 


上 EViewer 


Relation: CreditScreening 


33% 和 27%。 通 过 one 的 一 个 取 值 一 一 b 值 在 
Cluster0 中 出 现 比例 为 66%， 同 时 b 值 在 Clusterl 


出 现 比例 也 高 达 72%， 而 另 一 个 取 值 a 值 在 


Cluster0 中 出 现 比例 为 33%， 同 时 a 值 在 Clusterl 


中 出 现 比例 也 低 到 27%， 表 明 属 性 one 分 别 取 值 a 


和 的 实例 并 未 能 很 好 地 被 聚 类 到 不 同 的 簇 中 。 而 


前 面 分 析 了 簇 的 质量 是 良好 的 ,这 就 说 明 ,属性 one 


不 具有 较 好 的 分 类 能 力 。 通过 图 3.10(a) 也 能 证 明 这 


一 点 。 从 图 3.10 中 还 可 以 发 现 ，two、thirteen 和 


fourteen 属性 都 不 具有 较 好 的 区 分 类 的 能 力 。 而 


一 一 


nine 和 eleven 属性 的 各 个 取 值 被 很 好 地 聚 类 到 不 同 


的 徐 中 , 证 明 这 两 个 属性 具有 较 好 的 区 分 类 的 能 力 。 
从 图 3.10 中 发 现 twelve 属性 在 图 (d) 中 很 难 确 


图 3.9 实际 缺失 属性 值 


定 其 属性 取 值 被 聚 类 的 情况 ， 所 以 需要 通过 修改 图 中 的 x 轴 ， 使 其 也 表示 twelve 属性 值 ， 
如 图 (ob) 所 示 。 这 样 在 图 中 就 能 够 看 到 twelve 属性 的 两 个 取 值 的 实例 分 别 被 很 好 地 聚 类 到 两 


个 簇 中 ， 也 证 明了 twelve 属性 具有 较 好 的 预测 分 类 的 能 力 。 
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图 3.10 信用卡 筛选 数据 集 几 个 属性 的 Visualize cluster assignments 窗口 
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(9 中 名 
图 3.10 ”信用卡 筛选 数据 集 几 个 属性 的 Visualize cluster assignments 窗口 ( 续 ) 


通过 对 所 有 15 个 输入 属性 进行 分 类 能 力 的 检查 ， 发 现 nine、ten、eleven 和 twelve 4 个 
属性 具有 较 好 的 分 类 预测 能 力 ， 而 one、two、four、five 和 six 5 个 属性 具有 较 差 的 分 类 预 
测 能 力 。 

下 面 可 以 根据 属性 对 于 分 类 的 预测 能 力 ， 在 数据 挖掘 实验 前 进行 属性 选择 ， 再 重复 进 
行 数据 挖掘 实验 , 从 而 期 望 得 到 更 高 质量 的 分 类 模型 。 首 先 选择 nine、ten、eleven 和 twelve 
4 个 具有 较 好 分 类 预测 能 力 的 属性 ,删除 其 他 属性 进行 实验 , 发 现 分 类 正确 率 仍然 为 84.3%， 
分 类 正确 率 并 未 得 到 提升 ， 说 明 依靠 属性 选择 期 望 提 高 分 类 器 质量 的 办 法 是 不 行 的 。 

然而 , 前面 的 对 属性 分 类 预测 能 力 检 测 的 工作 并 非 毫 无 意义 。 现 在 若 删 除 这 4 个 属性 ， 
使 用 其 他 输入 属性 进行 实验 ， 得 到 的 分 类 正确 率 值 为 68.1%， 说 明 分 类 质量 有 很 大 幅度 的 
下 降 。 通 过 使 用 最 具 分 类 预测 能 力 的 4 个 属性 进行 实验 未 降低 分 类 正确 率 ， 而 不 使 用 它们 
进行 实验 ， 分 类 正确 率 下 降 很 多 的 事实 ， 从 而 得 出 结论 : 可 以 仅 使 用 这 4 个 属性 建 模 ， 在 
提高 实验 效率 的 同时 ， 又 不 降低 分 类 器 的 质量 。 这 在 大 型 数据 集中 是 非常 实用 的 手段 。 

既然 通过 属性 选择 不 能 达到 提高 分 类 模型 质量 的 目的 ， 那 么 可 以 进一步 通过 实例 选择 
来 提高 模型 质量 。 方 法 是 选择 每 个 类 中 具有 代表 性 属性 值 的 20 个 实例 ,其 中 分 类 类 型 的 属 
性 值 为 在 各 个 类 中 出 现 比 例 最 高 的 属性 值 ， 如 图 3.7 中 的 one 属性 的 b 值 的 ;数值 型 属性 
值 为 接近 各 类 中 均值 的 取 值 ， 如 图 3.7 中 的 two 属性 的 25 和 22.67, 最 典型 实例 为 属性 two 
取 这 两 个 值 或 接近 这 两 个 值 的 实例 。 选 择 所 有 输入 属性 进行 实验 ， 结 果 显 示 出 92.2% 的 分 
类 正确 率 。 实 验 的 混淆 矩阵 如 图 3.11 所 示 。 

一 个 使 用 类 代表 性 属性 值 选 择 的 300 个 最 典型 的 数据 实例 建立 的 有 指导 模型 能 够 比 用 
690 个 训练 实例 建立 的 模型 效果 更 好 。 

最 后 ， 还 可 以 选择 其 他 有 指导 的 学 习 技 术 重 复 进行 实验 来 提高 分 类 器 的 质量 。 此 处 留 
作 练习 。 
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图 3.11 使 用 典型 数据 集 所 建 分 类 器 的 输出 结果 


本 章 小 结 


本 章 内 容 概述 如 图 3.12 所 示 。 
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KDD 是 一 个 多 步骤 、 和 迭代 的 处 理 过 程 。 目 前 存在 各 种 处 理 模型 ， 包 括 经 典 的 九 步骤 模 
型 和 CRISP-DM 商业 模型 。CRISP-DM 处 理 模 型 包括 商业 理解 、 数 据 理解 、 数 据 准 备 、 建 
模 、 评 估 和 部 署 及 采取 行动 六 个 步骤 。 在 商业 理解 阶段 ， 需 要 确定 商业 目标 和 KDD 目标 ; 
在 数据 理解 阶段 对 数据 进行 收集 和 初步 的 探查 ;数据 准备 阶段 包括 抽取 数据 建立 目标 集 、 
清洗 数据 和 变换 数据 几 项 工作 ， 这 些 工作 实际 上 是 数据 的 预 处 理工 作 ， 在 整个 KDD 过 程 
有 具 有 重要 的 作用 和 大 量 的 工作 量 。 其 中 对 于 数据 中 噪声 的 平滑 处 理 和 缺失 数据 的 填补 可 使 
用 多 种 技术 。 建 模 阶段 首先 需要 选择 合适 的 建 模 技术 ， 并 设计 检验 程序 ， 再 进行 数据 挖掘 
实验 ， 最 后 对 得 到 的 模型 进行 评估 。 若 模型 不 理想 ， 需 要 重复 前 面 的 步骤 ， 继 续 下 次 挖掘 
实验 ， 直 到 得 到 满意 的 模型 为 止 。 这 个 阶段 和 下 一 个 评估 阶段 都 是 KDD 过 程 具有 的 迭代 
特性 的 最 好 诠释 。 评 估 阶 段 是 从 商业 的 角度 对 模型 和 整个 KDD 项 目 进行 评价 ， 决 定 是 否 
结束 KDD 过 程 ， 进 入 下 一 阶段 。 最 后 的 部 署 和 采取 行动 阶段 是 将 KDD 过 程 发 现 的 知识 应 
用 于 实际 ， 在 设计 应 用 前 要 制订 好 一 系列 的 方案 ， 保 障 项 目 成 果实 施 过 程 中 的 效果 。 


习 ”是 


1. 使 用 Min-Max 标准 化 公式 ， 将 驾驶 员 的 年 龄 值 从 40 岁 变 换 到 [0,1] 之 间 的 数值 。 

2. 某 人 的 年 薪 从 100000 元 提升 到 160000 元 ， 计 算 他 月 薪 的 增长 百分比 。 

3. 当前 的 值 域 是 [4000,13000]， 使 用 以 2 为 底 的 对 数 标准 化 对 一 组 数值 属性 进行 变换 ， 
新 的 属性 值 域 是 多 少 ? 

4. 使 用 iris 数据 集 进行 KDD 实验 ， 建 立 分 类 模型 ， 评 估 模 型 的 质量 。 尝 试 使 用 无 指 
导 聚 类 技术 检测 数据 集 的 输入 属性 的 分 类 预测 能 力 ， 制 订 各 种 属性 选择 方案 ,重复 进 行 有 
指导 的 训练 ， 分析 评 估 结 果 。 进 一 步 尝 试 选择 最 具 典 型 性 的 实例 组 成 新 的 数据 集 参 加 训练 ， 
分 析 评 估 结 果 。 

5. 使 用 3.3 节 的 分 类 器 评估 新 申请 信用 卡 的 客户 ， 决 定 是 否 接受 其 申请 请 求 。 


第 4 章 数据 仓库 


本 章 要 点 提示 


支持 数据 挖 气 项 目 执行 的 一 个 重要 基础 就 是 大 量 的 、 高 质量 的 数据 。 数据 的 采集 和 收 
集 是 数据 挖 据 过 程 中 基础 且 重要 的 一 个 步骤 。 这 些 数据 可 能 来 自 不 同 的 数据 源 ， 类 型 多 样 ， 
具有 出 构 性 和 多 维度 、 复 杂 性 等 特点 ， 需 要 一 种 有 组 织 的 、 高 效 的 数据 存 取 结构 ， 集 成 存 
储 ， 而 数据 仓库 正 是 具备 这 样 功能 的 数据 存储 架构 。 

本 章 4.1 节 概 括 性 地 阐述 了 数据 库 和 数据 仓库 的 基本 概念 和 特点 ; 4.2 节 介 绍 了 数据 仓 
库 模 型 的 设计 ， 重 点 讨论 了 最 常用 的 星 型 模型 、 雪 花 模型 和 星座 模型 的 设计 ， 并 解释 了 数 
据 集 市 和 决策 支持 系统 的 基本 概念 ; 4.3 节 概 述 了 联机 分 析 处 理 技术 ， 并 通过 一 个 实验 ， 描 
述 了 从 决策 支持 的 角度 ， 对 数据 仓库 中 数据 进行 多 维 分 析 的 方法 ; 4.4 节 介 绍 了 利用 
Microsoft Excel 数据 透视 表 和 数据 透视 图 建立 多 维 数据 分 析 模 型 的 方法 。 


4.1 数据 库 与 数据 仓库 


数据 库 (Database) 是 计算 机 存储 设备 上 长 期 、 集 中 存储 的 一 批 有 组 织 、 可 共享 的 数据 集 
合 。 建 立 数 据 库 的 目的 是 希望 以 统一 的 结构 存储 数据 ， 这 些 数 据 是 现实 世界 的 事物 和 事物 
之 间 的 关系 的 符号 化 表达 ， 各 类 用 户 依据 这 些 数据 进行 在 线 交 易 。 这 种 在 线 的 业务 交易 称 
为 联机 事务 处 理 (On-line Transactional Processing，OLTP)。 

联机 事务 处 理 是 指 用 户 通 过 终端 或 应 用 系统 以 在 线 交 易 的 方式 自动 化 地 处 理 实时 性 数 
据 的 过 程 ， 如 银行 交易 、 订 单 业务 等 日 常 的 事务 处 理 ， 是 传统 数据 库 的 主要 应 用 。 

数据 仓库 (Data Warehouse) 是 一 个 面向 主题 的 、 集 成 的 、 相 对 稳定 的 、 反 映 历 史 变 化 的 
数据 集合 (数据 仓库 之 父 比 尔 * 恩 门 (Bil Inmon) 在 1991 年 出 版 的 《建立 数据 仓库 》(Building 
the Data Warehouse) 一 书 中 提出 的 定义 )。 建 立 数据 仓库 的 主要 目的 是 提供 决策 支持 
(Decision Support), 而 联机 分 析 处 理 (On-line Analytical Processing，OLAP) 是 通过 数据 分 析 
以 支持 决策 的 主要 方法 。 

联机 分 析 处 理 是 指 通过 一 套 多 维 数据 分 析 和 统计 计算 方法 ， 产 生 集成 性 决策 信息 的 过 
程 。OLAP 是 关系 数据 库 之 父 埃 德 加 。 弗 兰 克 。 科 德 (E.F.Codd) 博 士 于 1993 年 提出 的 ， 
是 数据 仓库 系统 的 主要 应 用 。 

数据 库 主 要 面向 日 常事 务 处 理 ， 其 中 的 数据 一 般 为 在 线 交 易 数据 ， 甚 至 于 实时 数据 ， 
而 随 着 时 间 的 推移 ， 一 旦 某 些 数据 不 具有 时 效 上 的 使 用 价值 ， 则 其 会 被 移出 数据 库 ， 所 以 
一 般 意义 上 的 数据 库 是 一 种 事务 型 或 操作 型 数据 库 (Transactional Database/ Operational 
Database) 。 失 去 时 效 性 的 数据 往往 可 供 数据 分 析 使 用 ， 可 存 入 历史 数据 库 (Historical 
Database) 中 ， 即 数据 仓库 中 。 

数据 仓库 不 是 简单 的 历史 数据 库 ， 也 不 是 所 谓 的 “大 型 ”数据 库 。 数 据 仓库 与 数据 库 


在 建立 目的 、 作 用 、 结 构 、 数 据 内 容 等 方面 存在 着 巨大 差异 ， 主 要 表现 在 以 下 几 个 方面 。 
(1) 设计 目的 不 同 。 数 据 库 是 面向 事务 而 设计 的 ， 数 据 仓库 是 面向 主题 而 设计 的 。 
(2) 存储 的 数据 内 容 不 同 。 基 于 以 上 设计 目的 的 不 同 ， 数 据 库 和 数据 仓库 中 存储 的 主 

要 数据 内 容 不 同 。 数 据 库 一 般 存 储 在 线 交易 数据 ， 数 据 仓库 存储 的 一 般 是 历史 数据 。 

(3) 结构 设计 原则 不 同 。 因 数据 库 的 设计 主要 是 为 日 常事 务 处 理 ， 对 数据 访问 效率 要 

求 较 高 ， 在 时 间 和 空间 效率 方面 进行 权衡 考虑 ， 一 般 通 过 范式 约束 ， 尽 量 消除 元 余数 据 和 

元 余 联 系 。 而 数据 仓库 的 设计 主要 是 为 了 进行 数据 分 析 ，, 要 求 有 大 量 的 集成 数据 作为 基础 ， 

所 以 往往 采用 反 范式 设计 ， 将 具有 直接 或 间接 联系 的 数据 尽 可 能 地 连接 起 来 。 
根据 恩 门 (mmon) 的 数据 仓库 定义 ， 数 据 仓库 应 体现 以 下 几 个 特点 。 

(1) 面向 主题 的 (Subject Oriented)。 与 数据 库 面向 事务 处 理 不 同 ， 数 据 仓库 按照 需要 支 

持 的 决策 主题 组 织 数据 ， 将 同一 主题 的 数据 集成 存储 。 例 如 : 若 希 望 通 过 分 析 学 生 的 学 习 

行为 ， 给 予 学 生 评价 支持 ， 则 可 以 选择 学 生 学 习 为 主题 组 织 数据 ， 包 括 学 生 的 基本 数据 、 

修 课 数据 、 成 绩 数 据 、 参 与 校内 活动 数据 、 社 会 兼职 数据 、 兴 趣 爱 好 数据 等 。 

(2) 集成 的 (Integrated)。 将 分 散 存 储 的 各 个 企业 和 部 门 的 、 异 构 的 、 类 型 多 样 的、 运行 

在 不 同 软 硬 件 平台 上 、 彼 此 独立 和 相互 封闭 的 “信息 孤岛 ”中 的 数据 ， 进 行 收集 、 整 合 ， 

解决 数据 的 分 布 性 和 异 构 性 ， 是 数据 仓库 系统 的 一 项 重要 任务 。 数 据 仓库 系统 通过 数据 抽 

取 、 数 据 变换 、 数 据 清洗 和 数据 加 载 的 过 程 ， 完 成 数据 集成 ， 并 将 集成 的 数据 加 载 到 数据 

仓库 中 。 

(3) 相对 稳定 的 Non-Volatile)。 数 据 仓库 中 的 数据 往往 来 自 于 数据 库 , 与 数据 库 中 具有 
常事 务 数据 ， 甚 至 是 实时 数据 不 同 ， 数 据 库 中 不 再 具有 实效 性 的 数据 被 存储 在 数据 仓库 
中 ， 这 些 数据 的 历史 特性 ， 使 得 其 很 少 需要 被 修改 ， 具 有 相对 稳定 性 。 

(4) 反映 历史 变化 (Time Varianb。 数 据 仓库 中 数据 的 时 间 属 性 非常 重要 ， 数 据 往往 被 

打上 时 间 惟 ， 表 达 数 据 的 历史 变化 ， 满 足 决策 的 需要 。 例 如 ， 某 个 学 生 的 某 学 期 迟到 次 数 

累计 30 次 ， 但 是 ， 若 分 析 该 学 生 的 历史 数据 ， 发 现 其 迟到 现象 集中 发 生 在 某 个 月 ， 那 个 月 

他 家 中 有 事 ， 事 出 有 因 。 这 样 的 历史 数据 所 提供 的 决策 信息 ， 对 于 该 学 生 的 处 理 决 定 具 有 

重要 的 意义 。 


4.1.1 数据 ( 库 ) 模 型 


数据 库 是 通过 数据 模型 来 模拟 现实 世界 的 ， 数 据 库 中 的 数据 是 现实 世界 事物 和 事物 间 
联系 的 抽象 表示 。 现 实 世 界 通 过 两 级 抽象 形成 机 器 世界 的 数据 模型 。 第 一 级 抽象 是 现实 世 
界 中 的 事物 和 事物 之 间 的 联系 经 过 人 脑 的 加 工 概 化 成 为 信息 世界 (或 称 概念 世界 ) 的 实体 和 
实体 之 间 的 联系 , 使 用 概念 模型 (Conceptual Model) 或 称 为 实体 模型 (Entity Model) 进 行 描述 。 
而 信息 世界 的 实体 和 实体 之 间 的 联系 ， 经 过 加 工 编码 形成 机 器 世界 的 数据 和 数据 之 间 的 联 
系 ， 使 用 数据 模型 (Data Model) 进 行 描述 。 

其 中 第 一 级 抽象 是 将 事物 和 事物 之 间 的 联系 抽象 成 为 实体 和 实体 之 间 的 联系 。 实 体 
(Entity) 是 对 任何 一 个 可 以 识别 的 事物 的 概 化 而 形成 的 概念 ， 具 有 某 一 或 某 些 方面 的 特征 ， 
这 一 或 这 些 特征 被 抽象 为 一 个 或 多 个 属性 ， 每 个 属性 有 属性 类 型 和 属性 值 之 分 ， 而 其 中 的 
一 个 或 多 个 属性 的 组 合 能 够 起 到 唯一 标识 实体 的 作用 ， 这 样 的 属性 或 属性 组 合 称 为 实体 的 
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键 (Key)。 实 体 间 的 联系 表达 了 现实 世界 事物 之 间 的 联系 ， 可 以 分 为 一 对 一 、 一 对 多 和 多 对 
多 三 种 联系 类 型 。 例 如 ， 个 人 和 身份 证 之 间 的 联系 是 一 对 一 的 联系 ， 即 一 个 人 只 能 有 一 个 
身份 证 ， 反 之 一 个 身份 证 只 能 对 应 一 个 人 ， 具 有 一 一 对 应 关系 。 而 家 族 关 系 中 的 父亲 和 子 
女 的 联系 可 能 是 一 对 多 的 联系 ， 因 为 一 个 父亲 可 能 有 多 个 孩子 ， 而 一 个 孩子 只 能 有 一 个 亲 
生父 亲 。 在 学 生 和 课程 之 间 的 联系 中 ， 一 个 学 生 可 以 学 习 多 门 课 程 ， 一 门 课程 可 以 有 多 名 
学 生 学 习 ， 它 们 之 间 存 在 多 对 多 的 联系 。 

第 一 级 抽象 建立 的 概念 模型 通常 使 用 实体 联系 图 (ER 图 ，Entity Relationship Diagram) 
符号 系统 进行 描述 。ER 图 由 三 个 语言 符号 来 描述 ,使 用 矩形 描述 实体 ,使 用 椭圆 描述 实体 
的 属性 ， 使 用 萎 形 描述 实体 之 间 的 联系 。 

【 例 4.1】 建立 司机 和 其 驾驶 车 辆 的 信息 模型 和 数据 模型 。 要求 在 模型 中 描述 司机 、 
车 辆 的 基本 信息 ， 以 及 司机 驾驶 车 辆 的 时 间 和 地 点 信息 。 其 中 一 名 司机 在 不 同 的 时 间 可 轰 
驶 不 同 的 车 辆 ， 一 部 汽车 可 以 在 不 同时 间 由 不 同 驾驶 者 驾驶 。 以 此 模型 为 基础 建立 的 数据 
库 将 为 道路 交通 管理 部 门 提 供 违 章 处 罚 依据 。 

4.1 描述 了 两 个 实体 一 一 Driver( 司 机 ) 和 Vehicle( 车 辆 ) 之 间 联 系 的 ER 图 。 图 中 
DriverID( 司 机 驾照 号 ) 和 VehicleID( 车 辆 行驶 号 ) 加 下 划 线 , 表示 司机 实体 和 车 辆 实体 的 键 分 
别 为 驾照 号 和 行驶 号 。 实 体 之 间 的 连 线 上 的 字母 和 数字 表示 实体 之 间 联 系 的 类 型 ， 一 对 一 
表示 为 1 : 1， 一 对 多 表示 为 1 : n， 多 对 多 表示 为 n : m。 图 中 描述 了 司机 和 车 辆 之 间 为 多 
对 多 的 联系 ， 表 示 一 名 司机 可 以 驾驶 多 辆 汽车 ， 而 一 辆 车 可 以 由 多 名 司机 驾驶 。 

其 中 , Driver 为 司机 实体 ,具有 10 个 属性 , 分 别 为 DriverID( 司 机 驾照 号 )、DriverName( 司 
机 姓名 )、Sex( 性 别 )、Age( 年 龄 )、Job( 职 业 )、IncomeRange( 收 入 水 平 )、EduLevel( 受 教育 程 
度 )、Married( 婚 姻 状 况 )、TeINum( 联 系 电话 ) 和 Address( 联 系 地 址 )。Vehicle 为 车 辆 实体 ， 
具有 7 个 属性 ， 分 别 为 VehicleID( 车 辆 行驶 号 )、VehicleName( 车 辆 名 称 )、TypeID( 型 号 )、 
Year( 使 用 年 数 )、Color( 颜 色 )、Price( 购 买 价格 )、Insurance( 保 险情 况 )。 司 机 和 车 辆 之 间 有 
Drive( 驾 驶 ) 的 联系 ， 该 联系 产生 4 个 联系 属性 ， 分 别 为 StartTime( 开 始 时 间 )、EndTime( 结 
束 时 间 )、depPoint( 出 发 地 点 ) 和 desPoint( 到 达 地 点 )。 
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图 4.1 司机 -车 辆 ER 图 


概念 模型 的 抽象 是 最 重要 的 一 级 抽象 ， 其 对 现实 世界 反映 的 准确 度 和 完整 性 ， 直 接 影 
响 了 数据 模型 质量 ， 通 常 认为 概念 模型 就 是 现实 世界 的 真实 反映 。 
数据 模型 的 发 展 经 历 了 从 格式 化 的 层次 模型 和 网 状 模型 , 到 目前 普遍 使 用 的 关系 模型 。 


Dz 


关系 模型 使 用 二 维 表 结构 统一 地 描述 实体 和 实体 之 间 的 联系 ， 这 种 二 维 表 结 构 在 关系 数据 
理论 中 称 为 “关系 ”(Relationship)， 用 关系 既 可 以 描述 实体 本 身 ， 又 可 以 描述 实体 之 间 的 

概念 模型 经 过 第 二 级 抽象 ， 生 成 数据 模型 。 在 关系 数据 理论 中 ， 关 系数 据 模型 通常 使 
用 若干 关系 模式 来 描述 ， 每 个 关系 模式 就 是 一 个 关系 结构 、 关 系 的 框架 ， 与 具体 数据 无 关 。 
一 个 关系 模式 可 通过 五 元 组 R<U，D，DOM，F> 来 表示 。 其 中 RR 为 符号 化 的 关系 语义 ，U 
为 关系 的 属性 集合 ，D 为 属性 的 域 集合 ，DOM 为 属性 到 域 的 映射 ，F 为 属性 之 间 的 函数 
依赖 。 

概念 模型 转化 为 关系 模式 的 集合 的 转化 原则 为 : 实体 转化 为 关系 ， 实 体 的 属性 直接 作 
为 关系 的 属性 ， 实 体 的 键 直接 作为 关系 的 键 ; 联系 转化 为 关系 (其 中 的 一 对 一 和 多 对 一 的 联 
系 可 根据 是 否 有 多 个 联系 属性 ， 而 决定 是 否 可 以 不 转换 为 单独 一 个 关系 )， 联 系 的 属性 由 两 
部 分 构成 ， 一 为 参与 联系 的 两 个 实体 的 键 ， 二 为 联系 自己 的 属性 。 联 系 转化 为 的 关系 的 键 
由 联系 的 类 型 决定 ， 若 为 一 对 一 的 联系 ， 则 联系 的 键 为 参与 联系 的 每 个 实体 的 键 ， 若 为 一 
对 多 的 联系 ， 联 系 的 键 为 多 的 一 方 的 实体 的 键 ， 若 为 多 对 多 的 联系 ， 联 系 的 键 为 参与 联系 
的 实体 的 键 组 合 。 根 据 以 上 原则 ， 可 以 将 图 4.1 中 的 司机 -车 辆 概念 模型 转化 为 如 下 关系 数 
据 模式 ， 其 中 有 下 划 线 的 属性 或 属性 组 合 为 关系 的 键 。 

(1) Driver(DriverID, DriverName, Sex, Age, Job, IncomeRange, EduLevel, Married, 
TelNum, Address) 

(2) Vehicle(VehicleID, VehicleName, TypeID, Year, Color, Price, Insurance) 

(3) Drive(DriverID, VehicleID, StartTime, EndTime, depPoint, desPoint) 

在 数据 库 中 , Drive 被 称 为 交叉 实体 (Intersection Entity), 是 因为 数据 库 系统 不 能 直接 实 
现 多 对 多 的 实体 间 联 系 ， 多 对 多 的 联系 需要 通过 两 个 一 对 多 的 联系 来 实现 。 这 与 关系 数据 
模型 的 表达 相 一 致 。 


4.1.2 规范 化 与 反 向 规范 化 


概念 模型 和 数据 模型 建立 完成 后 ， 应 用 关系 数据 理论 ， 对 模型 进一步 分 析 ， 从 而 达到 
改进 和 优化 的 目的 。 关 系数 据 理论 是 关于 数据 库 设计 的 理论 ， 它 认为 可 以 使 用 几 个 结构 简 
单 的 关系 模式 取代 原来 结构 复杂 的 关系 模式 ， 从 而 消除 关系 模式 所 具有 的 插入 、 删 除 和 更 
新 异常 ， 消 除 元 余 。 这 个 过 程 称 为 关系 的 规范 化 (Normalization)。 在 关系 的 规范 化 过 程 中 ， 
进行 分 级 的 模式 分 解 ， 分 解 的 依据 被 称 为 范式 (Normal Form)。E.F. 科 德 已 经 定义 了 多 个 范 
式 ， 包 括 第 一 范式 (First Normal Form, INF)、 第 二 范式 (Second Normal Form, 2NF) 和 第 三 范 
式 (Third Normal Form, 3NF)。 属 于 1NF 的 关系 模式 要 求 关系 的 每 个 分 量 都 必须 是 原子 的 ; 
属于 2NF 的 关系 模式 要 求 关 系 的 每 个 非 主 属性 都 必须 完全 依赖 于 关系 的 每 个 键 ， 对 2NF 
的 检查 只 有 在 键 是 多 个 属性 的 组 合 时 才 有 意义 ; 属于 3NF 的 关系 模式 要 求 其 首先 必须 属于 
2NF， 且 关系 的 每 个 非 主 属性 对 于 关系 的 每 个 键 不 存在 传递 函数 依赖 关系 ， 即 3NF 要 求 所 
有 非 键 属 性 仅 依赖 于 整个 键 。 尽 管 目 前 除了 以 上 三 种 范式 之 外 ， 还 有 更 高 级 别 的 范式 ， 如 
4NF、BCNF 和 5NF， 但 一 般 情况 下 ， 属 于 3NF 的 关系 模式 就 已 经 完全 消除 了 插入 和 删除 
异常 ， 更 新 异常 也 因 和 元 余 已 经 得 到 很 大 程度 的 降低 而 得 到 了 很 好 的 改善 ， 过 度 的 模式 分 解 
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会 造成 查询 效率 的 降低 、 函 数 依 赖 关 oo ， 所 以 目前 大 多 数 
数据 模型 的 关系 模式 都 属于 3NF 就 可 以 被 接受 
表 4.1、 表 4.2 和 表 4.3 分 别 给 出 了 Driver、 0 和 Drive 三 个 关系 表 。 


表 4.1 Driver 关系 表 


DriverName| Sex |Age| Job |IncomeRange| EduLevel |Married| TelNum | Address 
i | | Fe ee | le FE Hangzhou 


[35 | Doctor | [iosog | S0K [ae | Sing |sinale | |sooos74 | Shanghai 
Male |40 |teacher | 2-10K Graduate Married | 7123456 |Beijing 
Female | 50 | Retired | 1-4K HighSchool Married | 74329100 | Beijing 


表 4-1 Vehicle 关系 表 


Veniclelp | VehicleName [ee se 一 Insurance 


| Yes 
| | No 


0003 | Volkswagen | 4 | 4 | Be | 2ok yes 
表 4-3 Drive 关系 表 


DriverlD |VehiclelD|_ startTime 
| oo00 | 20120901 8:00 “| 20120901 8:20 HangzhouYuhangqu 
0002 |20140206 13:08 |2012020613:50 | ShanghaiNanjinglu 


DriverlD 
1234 
4321 


0003 |20130501 12:00 |20130502 16:03 
0003 |201311109:00 “|20131110 9:10 
0003 |20121220 10:00_| 20121220 10:20 


在 规范 化 到 3NF 的 过 程 中 ,分解 过 程 是 无 损 的 ， 数 据 元 余 得 到 很 大 改善 ， 使 得 数据 库 
在 日 常事 务 处 理 中 , 数据 的 访问 效率 得 到 很 大 提升 ， 所 以 关系 数据 库 非常 适合 于 事务 处 理 。 
但 是 ， 对 于 为 数据 挖掘 和 决策 支持 提供 数据 基础 ， 用 于 数据 分 析 的 数据 库 ， 经 过 多 级 规范 
化 后 的 关系 型 数据 就 不 再 合适 了 。 因为 分 析 数 据 的 目的 是 检查 和 揭示 数据 中 的 规律 和 联系 ， 
而 通过 规范 化 过 程 产 生 的 关系 数据 库 模 型 ， 要 求 单 实体 - 单 关 系 ， 即 每 个 关系 表达 一 个 实体 
或 一 对 实体 之 间 的 联系 ， 数 据 间 的 复杂 联系 不 能 完整 表达 。 如 例 4.1 所 示 的 数据 模型 中 若 
需要 表达 Job( 职 业 ) 与 其 驾驶 Type( 车 辆 型 号 ) 之 间 的 联系 , 需要 将 3 个 关系 表 进行 连接 (Join) 
操作 ， 连 接 结果 如 表 4.4 所 示 。 

关系 的 连接 过 程 是 两 两 关系 连接 ， 连 接 字 段 为 DriverID 和 VehicleID 。 该 过 程 称 为 “ 反 
向 规范 化 ”(De-normalization)。 反 向 规范 化 将 破坏 范式 约束 ， 如 表 4.4 中 关系 表 的 键 为 
(DriverID，VehicleID)， 非 主 属性 DriverName、Sex 、Age、Job、TypeID 都 不 完全 依赖 于 
键 ， 违 反 了 2NF 的 约束 。 


BD ”= 


NM 4 wiene 
1 EE 


表 4.4 Driver、Vehicle 和 Drive 关系 表 的 连接 

Drvenp | prverName | Sex | Age | Jop | venidep | Type 
4321 1 8002 
4321 1 4002 
6547 Female ' 4002 

在 事务 型 环境 中 ， 为 了 实现 为 决策 支持 准备 数据 ， 必 须 按照 一 个 主题 以 组 合 实体 的 形 

4.2 设计 数据 仓库 
建立 数据 仓库 是 一 个 收集 、 整 合 、 存 储 、 管 理 和 分 析 数 据 的 过 程 (Gardner，1998)。 


1234 Zhang 9001 
Li 
Li 
3215 W 4002 
式 进行 大 量 的 反 向 规范 化 工作 。 
图 4.2 给 出 了 数据 仓库 的 建立 过 程 。 
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4.2 ”建立 数据 仓库 的 过 程 


4.2.1 数据 抽取 、 清 洗 、 变 换 和 加 载 


数据 仓库 中 的 数据 有 三 个 来 源 ， 分 别 为 传统 数据 库 、 平 面 文件 或 其 他 格式 文件 以 及 独 
立 数据 集 市 。 其 中 ， 平 面 文件 (Flat File) 是 指 没 有 特定 格式 和 关系 结构 的 数据 记录 ， 如 纯 文 
本 文件 ， 包 括 .txt 文件 、 使 用 逗号 作为 分 隔 符 的 .csv 文件 、.arff 文件 等 。 独 立 数据 集 市 
(Independent Data Mart) 是 一 种 类 似 于 数据 仓库 的 数据 集合 ， 数 据 集 市 中 的 数据 面向 单一 主 
题 。 可 以 使 用 传统 数据 库 和 平面 文件 及 其 他 格式 文件 建立 独立 数据 集 市 , 在 4.2.4 节 将 详细 
介绍 数据 集 市 。 

数据 源 确定 后 ， 将 完成 数据 的 抽取 、 变 换 和 加 载 (Extraction，Transformation，Loading， 
ETL) 等 工作 。ETL 过 程 的 主要 任务 是 : 从 一 个 或 多 个 输入 源 中 抽取 数据 ， 如 果 有 必要 ， 清 
洗 和 变换 提取 的 数据 ， 并 将 数据 加 载 到 数据 仓库 中 。 
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1. 数据 抽取 


1 数据 抽取 是 在 准备 数据 源 的 基础 上 ， 从 多 个 异 构 的 传统 数据 库 、 独 立 数据 集 市 、 平 1 
1 文件 等 中 提取 与 数据 仓库 主题 相关 的 数据 ， 进 行 整 合 、 集 成 的 过 程 。 对 于 异 构 数 据 源 ， 要 
! 对 各 数据 源 的 数据 格式 、 内 容 、 相 关 指 标 体系 、 采 集 手 段 、 时 间 跨 度 、 数 据 质量 等 多 源 异 
1 构 性 有 所 了 解 ， 制 订 集 成 方案 ， 在 一 定 的 规范 标准 下 进行 数据 抽取 。 抽 取 可 以 是 以 初始 化 
1 数据 仓库 为 目的 的 全 量 抽取 和 以 维护 为 目的 的 增 量 抽取 ; 可 以 定时 自动 抽取 或 人 工 抽取 。 
1 
1 
1 
1 


2. 数据 变换 

数据 变换 是 根据 数据 分 析 的 需要 ， 建 立 源 数据 与 目标 数据 之 间 的 映射 关系 ， 常 用 来 解 
决 数据 粒度 (Data Granularity) 问 题 、 多 个 数据 源 之 间 数 据 的 不 一 致 性 问题 以 及 给 各 个 数据 记 
录 加 上 时 间 惟 等。 主要 体现 在 以 下 几 个 方面 。 

(1) 缺失 数据 的 替换 。 对 于 缺失 数据 约定 使 用 其 他 数据 进行 蔡 换 。 

(2) 建立 完整 性 约束 ， 并 调整 数据 的 一 致 性 。 对 于 属性 域 的 范围 和 格式 进行 约束 定义 ， 
并 对 抽取 的 数据 进行 一 致 性 检查 ， 完 成 一 致 性 校正 。 

(3) 建立 在 多 数据 源 中 选择 数据 的 判断 逻辑 。 对 于 选择 面向 某 个 或 某 些 主题 的 数据 需 
求 ， 指 定 提取 数据 和 变换 数据 的 规则 ， 并 按照 此 规则 进行 数据 内 容 和 格式 的 调整 。 

(4) 拆 分 和 合并 数据 。 根 据 数据 分 析 的 需要 ， 对 属性 和 属性 值 进行 分 解 或 合并 。 例 如 ， 
表 4.3 中 的 StartTime 和 EndTime 字段 可 分 别 被 拆 分 成 StartDate 和 StartTime，EndDate 和 
EndTime， 分 别 在 不 同 字段 中 存储 日 期 和 时 间 。 

(5) 增加 数据 记录 的 时 间 属 性 。 数 据 仓库 中 的 数据 具有 历史 特性 ， 表 达 同 样 事 物 的 数 
据 记 录 按 照 建立 和 消亡 的 时 间 ， 加 上 时 间 惟 ， 在 数据 仓库 中 存储 多 个 时 间 版 本 。 

(6) 按照 数据 分 析 的 数据 粒度 要 求 ， 汇 总 和 聚集 数据 。 


3. 数据 清洗 


ETL 的 抽取 和 变换 过 程 完 成 后 ， 可 能 会 产生 大 量 的 “ 脏 数据 ”， 如 异常 数据 、 重 复数 
据 、 缺 失 数 据 等 。 据 统计 ，ETL 过 程 中 数据 清洗 前 ， 数 据 错误 约 占 总 数据 量 的 5% 左 右 ， 
因此 数据 质量 问题 是 制约 数据 仓库 应 用 的 “瓶颈 ”之 一 。 

目前 常用 的 数据 清洗 (Cleaning) 技 术 包括 : 基于 数理 统计 的 方法 、 模 式 识别 的 方法 、 基 
于 距离 的 聚 类 方法 和 关联 规则 等 进行 数据 异常 的 检测 和 消除 ;使 用 字符 串 匹 配 算法 、 递 归 
字段 匹配 算法 、Smith Waterman(S-W 算法 ) 和 改进 的 S-W 算法 、 基 于 动态 规划 的 距离 法 、 
快速 过 滤 法 等 检测 重复 数据 ， 使 用 基本 近邻 排序 、 多 趟 近邻 排序 和 优先 队列 策略 等 方法 进 
行 重复 数据 的 消除 清洗 ; 使 用 基于 标准 SQL 语言 的 通用 的 、 可 扩展 的 清洗 过 程 模型 进行 数 
据 清洗 , 补充 商业 ETL 工具 的 数据 清洗 功能 的 不 足 。 如 基于 遗传 神经 网 络 的 数据 清洗 模型 ， 
基于 最 小 二 乘法 原理 和 模拟 退火 遗传 算法 的 数据 预 处 理 组 合 方法 等 。 


4. 数据 加 载 


数据 加 载 是 指 在 完成 数据 抽取 、 变 换 和 清洗 后 ， 按 照 统一 数据 格式 将 符合 数据 仓库 环 
境 要 求 的 数据 转 存 到 数据 仓库 的 过 程 。 
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条. 目下 王 屋 


随 着 数据 仓库 的 广泛 应 用 ，ETL 工具 也 日 渐 成 熟 ， 利 用 多 进程 、 多 线程 、 流 水 、 多 处 
理 器 等 技术 ， 对 于 海量 数据 能 够 并 行 和 增 量 处 理 。 目 前 主要 的 商用 ETL 工具 包括 IBM 公 
司 的 Visual Warehousing 和 DataStage、Oracle 公司 的 Oracle Warehouse Builder(OWB) 和 
ODI(Oracle Data Integrator)、Microsoft 公司 的 DTS、Informax 公司 的 Ardent Datastage、 
CAPlatinum 公司 的 Inforbump、 灵 蜂 公司 的 Beeload 等 。 商 业 ETL 工具 尽管 技术 成 熟 ， 功 
能 较为 强大 ， 但 也 不 能 满足 所 有 应 用 领域 数据 仓库 的 ETL 过 程 需求 。 目 前 也 出 现 了 许多 开 
源 ETL 工具 和 技术 。 如 KETTLE、Apatar 等 ， 都 是 基于 Java 环境 ， 开 放 结 构 和 接口 。 


6. 元 数据 


元 数据 (Metadata)， 作 为 数据 仓库 存储 的 一 种 重要 数据 ， 对 于 帮助 数据 仓库 设计 者 和 使 
用 者 更 好 地 掌握 数据 仓库 所 存储 数据 的 内 容 、 质 量 、 状 况 和 特征 ， 了 解数 据 的 历史 ， 如 数 
据 从 哪里 来 ， 流 通 时 间 多 长 ， 更 新 频率 是 多 大 ， 数 据 元 素 的 含义 是 什么 ， 对 它 已 经 进行 了 
哪些 计算 、 变 换 和 筛选 等 有 重要 作用 。 元 数据 是 定义 和 描述 其 他 数据 的 数据 ， 是 关于 数据 
的 数据 ， 在 整个 数据 ETL 过 程 中 起 到 基础 作用 。 有 两 种 元 数据 类 型 ;结构 型 和 操作 型 (或 
称 业 务 元 数据 和 技术 元 数据 )。 结 构 型 元 数据 (业务 元 数据 ) 描 述 数据 内 容 、 数 据 类 型 、 表 示 
规则 和 数据 项 之 间 的 关系 。 操 作 型 元 数据 (技术 元 数据 ) 主 要 用 于 描述 数据 的 质量 和 用 途 ， 
是 数据 仓库 的 设计 和 管理 人 员 用 于 开发 和 日 常 管理 数据 仓库 时 用 的 数据 。 包 括 : 数据 源 信 
息 ， 数据 变换 的 描述 ， 数 据 仓库 内 对 象 和 数据 结构 的 定义 ， 数 据 清理 和 数据 更 新 时 用 的 规 
则 ， 源 数据 到 目的 数据 的 映射 ， 用 户 访问 权限 ， 数据 备份 历史 记录 ; 数据 导入 历史 记录 ; 
信息 发 布 历史 记录 等 。 结 构 型 和 操作 数据 的 主要 区 别 是 后 者 经 常 处 于 变化 的 状态 ， 而 前 者 
是 静态 的 。 

数据 仓库 中 的 元 数据 具有 以 下 特征 。 

(1) 能 够 描述 数据 的 特征 ， 这 是 元 数据 最 本 质 的 特征 。 

(2) 元 数据 具有 动态 特征 ， 随 所 描述 对 象 的 变化 而 变化 。 

(3) 元 数据 的 类 型 具有 多 样 性 。 

(4) 元 数据 既 可 以 是 一 个 数据 集合 ， 也 可 以 是 单个 数据 ， 还 可 以 在 其 中 包含 其 他 元 数 
据 。 有 些 元 数据 项 是 描述 数据 仓库 中 数据 特征 必需 的 ， 而 有 些 是 可 选 的 。 

(5) 由 元 数据 所 描述 对 象 的 多 层次 和 元 数据 使 用 对 象 的 多 层次 性 决定 了 元 数据 具有 层 
次 性 。 

(6) 元 数据 是 有 关 “ 数 据 ” 的 “数据 ”， 相 对 于 前 一 个 “数据 ”而 言 ， 元 数据 是 次 要 
的 ， 但 又 是 必 不 可 少 的 。 元 数据 也 是 数据 ， 在 数据 仓库 环境 中 ， 元 数据 量 可 能 非常 大 。 

ETL 过 程 中 的 所 有 操作 都 需要 元 数据 的 支持 。 按 照 元 数据 定义 的 内 容 、 频 率 和 规则 ， 
将 保存 在 传统 数据 库 或 其 他 数据 源 中 的 数据 抽取 出 来 ， 存 放 到 另外 的 数据 库 中 ， 并 将 预 抽 
取 操 作 记 录 在 元 数据 库 中 ; 数据 变换 的 规则 和 算法 由 元 数据 定义 ， 变 换 操作 需要 在 元 数据 
库 中 记录 ; 数据 加 载 需要 遵守 元 数据 定义 的 规则 ， 加 载 操作 需要 在 元 数据 库 中 记录 。 


7. 变化 维度 问题 


通常 情况 下 ， 数 据 一 旦 输入 数据 仓库 就 不 再 被 修改 。 但 对 于 一 些 特殊 情况 ， 如 某 司 机 
的 年 龄 、 婚 姻 状况 、 联 系 地 址 等 数据 ， 随 着 时 间 的 变化 ， 可 能 需要 修改 。 因 为 数据 仓库 中 
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的 数据 具有 历史 特性 ， 时 间 属 性 是 其 重要 特征 ， 如 果 简 单 地 修改 该 司机 的 所 有 数据 仓库 记 
录 中 的 年 龄 、 婚 姻 状 况 和 联系 地 址 数据 ,就 可 能 造成 过 去 基于 旧 数 据 进行 的 数据 分 析 失 效 。 
例如 ， 修 改 司 机 的 年 龄 从 20 岁 改 为 30 岁 , 那么 其 在 20 岁 时 驾驶 的 汽车 信息 若 简单 地 被 修 
改 为 30 岁 的 信息 ， 则 该 数据 为 错误 数据 ,年龄 的 确 是 当前 值 ， 但 这 个 年 龄 下 的 驾驶 汽车 的 
信息 是 错误 的 。 简 单 更 新 数据 仓库 中 的 数据 为 当前 值 是 传统 数据 库 的 数据 更 新 方法 ， 不 适 
用 于 数据 仓库 。 

此 类 数据 更 新 问题 , 被 归纳 为 “变化 维度 ”问题 , 修改 的 数据 往往 是 维度 表 中 的 数据 ( 关 
于 维度 表 的 详细 内 容 参 见 4.2.2 节 )。 拉 尔 夫 。 全 博 尔 Ralph KimbalD) 将 维度 表 中 的 维度 属性 
按照 随时 间 变 化 的 节律 不 同 分 成 三 类 ， 分 别 是 不 随时 间 发 生变 化 的 稳定 维度 (Unchanging 
Dimensions，UDs)、 随 时 间 发 生 缓慢 变化 的 渐变 维度 (Slow Changing Dimensions，SCDs) 和 
随时 间 变 化 频率 较 快 的 快 变 维度 (Rapidly Changing Dimensions，RCDs)。 对 于 不 同类 型 的 变 
化 维度 ， 数 据 变化 时 采取 不 同 的 处 理 方法 。 

1) 稳定 维度 

稳定 维度 是 与 时 间 无 关 的 静态 的 属性 维度 ， 对 事实 表 中 的 事实 数据 (关于 事实 表 的 详细 
内 容 参见 4.2.2 节 ) 进 行 稳定 一 致 的 划分 归 类 。 这 类 维度 数据 无 须 处 理 。 

2) 渐变 维度 

渐变 维度 表 中 的 数据 会 随时 间 渐 变 ， 如 上 述 的 年 龄 、 婚 姻 状况 和 联系 地 址 字段 。 这 种 
情况 下 ， 应 记录 历史 数据 ( 旧 值 ) 和 更 新 后 的 新 值 ， 并 记录 更 新 历史 。 目 前 多 采用 两 种 处 理 
办 法 :一 种 办 法 是 记录 每 一 个 属性 当前 值 的 同时 ， 新 建 一 个 字段 来 保存 修改 以 前 的 值 ， 另 
一 种 办 法 是 当 一 条 记录 的 属性 值 更 改 时 ， 保 留 原 有 记录 ， 创 建 一 个 新 的 记录 ， 与 原 有 记录 
具有 相同 的 键 ， 并 在 渐变 维度 表 中 使 用 代理 键 作 主键 (在 事实 表 中 作为 外 键 )， 同 时 记录 属 
性 值 的 更 新 历史 。 

3) 快 变 维度 

快 变 维度 表 中 的 属性 值 会 频繁 变化 。 实 际 应 用 处 理 中 可 根据 需要 采用 微型 维度 和 预 设 
波段 的 方法 来 解决 快 变 所 带 来 的 影响 。 微 型 维度 是 将 变化 频率 快 的 属性 从 原 有 的 维度 表 中 
分 离 出 来 单独 组 合成 一 个 或 多 个 新 的 维度 ， 形 成 子 维度 表 ; 预 设 波段 是 指 将 那些 会 频繁 发 
生变 化 的 属性 在 操作 型 数据 环境 中 的 值 域 映射 为 一 组 数目 相对 较 少 的 离散 值 。 


4.2.2 数据 仓库 模型 


通常 情况 下 ， 可 以 采用 两 种 技术 建立 数据 仓库 模型 。 一 种 是 将 数据 仓库 模型 构造 为 多 
维 数组 ， 数 据 的 存储 格式 类 似 于 展现 给 用 户 的 格式 ， 另 一 种 更 常用 的 方法 是 用 关系 模型 存 
放 数 据 仓库 中 的 数据 ， 并 调用 关系 数据 库 引擎 将 数据 以 多 维 格式 展现 给 用 户 ， 这 种 关系 型 
建 模 技术 中 最 常用 的 是 星 型 模型 。 


1. 星 型 模型 


【 例 4.2】 建立 一 个 数据 仓库 模型 ， 表 示 司 机 接受 驾驶 车 辆 违章 处 罚 的 情况 。 该 模型 
用 于 分 析 司 机 的 驾驶 行为 ， 为 对 司机 作出 评价 决策 提供 支持 。 数 据 仓库 中 应 描述 和 存储 关 
于 司机 的 基本 信息 、 驾 驶 的 车 辆 信息 、 驾 驶 车 辆 违章 的 时 间 、 违 章 地 点 、 违 章 情况 和 接受 
处 罚 等 信息 。 

图 4.3 描述 了 一 个 星 型 模型 (Star Model ) 实 现 的 数据 仓库 。 这 个 星 型 模型 的 主题 是 司机 
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驾驶 车 辆 违章 接受 处 罚 。 其 中 TraViolationFact Table( 违 章 接受 处 罚 事实 ) 是 一 张 事实 表 (Fact 
Table)， 定 义 了 多 维 空间 的 维 数 为 五 维 一 一 Driver( 司 机 )、Vehicle( 车 辆 )、Location( 地 点 )、 

Time( 时 间 ) 和 “TraRule( 违 反 的 交规 类 型 )。 事 实 表 的 每 条 记录 包含 两 种 类 型 的 信息 一 一 维度 
关键 字 和 事实 。 维 度 关 键 字 是 系统 产生 的 值 ， 用 于 区 分 事实 表 的 每 一 条 记录 。 维 度 关键 字 
确定 了 用 星 型 模型 表示 的 多 维 结构 的 坐标 。 

事实 表 的 每 一 维 都 可 能 有 一 个 或 多 个 相关 联 的 维度 表 (Dimension Tables)。 维 度 表 分 布 
在 一 颗 星 的 顶点 上 ， 围 绕 着 中 心 的 事实 表 ， 形 成 了 星星 的 形状 ， 这 也 是 星 型 模型 名 称 的 由 
来 。 维 度 表 包 含 每 个 维度 中 的 数据 。 每 张 维 度 表 和 事实 表 之 间 的 联系 是 一 对 多 的 联系 。 因 
此 维度 表 比 中 心 的 事实 表 要 小 很 多 。 尽 管事 实 表 是 3NF 的 , 维度 表 却 没有 被 规范 化 。 相反， 
选择 组 成 维度 表 的 属性 很 大 程度 上 是 由 星 型 模型 所 要 回答 的 分 析 课 题 的 性 质 所 决定 。 星 型 
模型 的 维度 通常 是 缓慢 变化 的 渐变 维度 。 这 是 因为 维度 表 中 的 信息 属于 上 节 所 述 的 不 常 变 
化 的 类 型 。 

4.3 的 星 型 模型 显示 了 五 个 维度 表 。Driver 维度 表 存 储 了 每 名 司机 的 DriverID、 
DriverName、Sex、Age、Job、IncomeRange 和 EduLevel 信息 ; Vehicle 维度 表 存 储 了 发 生 
违章 的 车 辆 的 VehicleID、VehicleName、TypeID 和 Year 信息 ; Location 维度 表 存储 了 地 点 
信息 ; Time 维度 表 存储 了 时 间 信 息 ;TraRule 维度 表 存 储 了 交通 规则 信息 。 

事实 表 中 的 每 条 记录 由 维度 关键 字 和 一 个 或 多 个 事实 组 成 。 图 4.3 所 示 的 事实 表 中 的 
事实 为 某 司 机 驾驶 某 车 辆 在 某 时 间 某 地 点 违反 某 条 交通 规则 是 否 接受 了 处 罚 。 如 事实 表 中 
的 第 一 条 记录 表示 : Zhang 司机 驾驶 Chevrolet 汽车 , 在 2012 年 3 月 8 日 16:00 于 北京 海淀 
东方 路 违章 停车 ， 接 受 了 处 罚 (Accept 值 为 1 表示 接受 了 处 罚 ， 为 0 表示 未 接受 处 罚 )。 


TraRule 维度 表 
Time 维度 表 Location 维度 表 [Rule Key [RuleID| RuleName [Point| fine 
Time Key| Year [Month [Day | hour | Minute [Second | [Location Key| Street | district] City 1 1001 | 违章 停车 | 2 | 200 


| | | 0 1 Dongfang| Haidian |Beijing 


TraViolationFact 事 实 表 ss 


Driver Key[Vehicle Key [Time Key [Location Key [Rule Key[ Accept 
二 1 
2 2 
1 1 


ee Vebicle 维 度 表 


[Driver Key [DriverID [DriverName| Sex | Age | Job [Income Rangel EduLevel Vehicle Key | VehicleID [VehicleName TypeID|Year 
1 1234 Zhang |Female| 24 | Student| 0 - 1K |UnderGra 1 0001 Chevrolet | 9001 | 3 
Fr 4321 Li Male | 35 |Doctor| 10 - 50K | Graduate 2 0002 Cadillac | 8002 | 1 


“|S| 


1002 | 走 公交 车 道 | 0 | 200 
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图 4.3 司机 接受 驾车 违章 处 罚 的 星 型 模型 

建立 数据 仓库 模型 之 前 需要 做 好 如 下 准备 工作 ， 这 些 工作 需要 由 熟悉 业务 和 熟悉 技术 
的 设计 师 共 同 完成 。 

(1) 选择 主题 。 

(2) 确定 事实 表 和 表 结 构 、 维 度 表 和 表 结 构 ， 从 而 决定 数据 仓库 的 目标 数据 。 
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(3) 确定 事实 的 个 数 和 展示 角度 。 

(4) 确定 维度 表 是 否 需要 分 层 和 分 层 的 个 数 。 

(5) 分 析 数 据 源 ， 确 定数 据 源 是 否 有 支持 主题 的 数据 ， 包 括 事实 数据 和 维度 数据 。 

星 型 模型 具有 多 维 性 。 图 4.3 所 示 的 事实 表 定 义 了 一 个 五 维 空间 ， 事 实 表 中 的 每 条 记 
录 在 这 个 五 维 空间 中 以 一 个 具有 五 个 坐标 值 的 点 来 表示 。 例 如 : 事实 表 的 第 一 条 记录 可 以 
用 点 A(1,1,1,1,1) 来 表示 ，A 的 事实 值 为 1( 接 受 了 处 罚 )。 

事实 表 的 粒度 处 于 事务 级 别 ， 即 每 名 司机 的 每 个 驾车 违章 记录 ， 都 被 单独 记录 在 事实 
表 中 。 为 提高 粒度 ， 可 以 记录 每 名 司机 一 个 月 违章 接受 处 罚 的 总 次 数 。 如 在 图 4.3 中 的 事 
实 表 将 Zhang 司机 违章 的 两 次 记录 ， 即 Driver Key=1 的 两 次 记录 合并 ， 合 并 后 的 记录 表示 
Zhang 司机 在 3 月 份 接受 的 交通 违章 处 罚 次 数 ， 这 样 就 得 到 按 月 记录 的 每 名 司机 接受 的 违 
章 处 罚 次 数 ， 就 可 以 在 更 高 级 别 的 粒度 下 查看 和 分 析 数 据 。 要 确定 系统 的 粒度 级 别 ， 需 要 
根据 用 户 对 细节 程度 的 要 求 进行 ， 更 高 级 别 的 粒度 将 提高 系统 性 能 ， 因 为 粒度 的 提高 使 得 
事实 表 记 录 数 减少 。 

2. 雪花 模型 

雪花 模型 (Snowflake Model) 是 特殊 形式 的 星 型 模式 ， 是 将 星 型 模型 中 的 某 些 维度 表 进 
行 分 层 形成 的 模型 。 维 度 表 的 分 层 ， 是 对 维度 表 的 逐 层 分 解 ， 使 得 维度 表 可 以 被 规范 化 ， 
从 而 减少 数据 元 余 ， 提 高 存储 效率 。 此 外 ， 因 为 关系 表 更 小 了 ， 连 接 操作 的 时 间 性 能 也 得 
到 了 提高 。 然 而 ， 由 于 表 的 总 数 增加 ， 与 没有 被 规范 化 的 表 相 比 ， 抽 取 同 样 的 信息 所 作 的 
数据 查询 的 复杂 度 提高 了 。 在 大 多 数 情况 下 ， 多 层 维度 表 按 照 金字 塔 形 进行 布局 排列 ， 最 
上 面 有 一 个 概括 的 层次 ， 如 图 4.4 所 示 的 Location 维度 表 ， 就 有 地 点 、 市 和 省 三 个 层次 。 


Province 维度 表 
Province Key | ProvinceID | ProvinceName 


7 05 河北 省 


City 维度 表 
City Key| CityID | CityName| ProvinceID 
8 050 | 石家庄 05 


Location 维度 表 
Location Key | district | Street |CityDD 
1 城关 区 | 希望 路 | 050 


TraViolationFact 事 实 表 

Driver Key |Vehicle Key | Time Key |Location Key | Rule Key| Accept 
! 1 1 1 1 
2 2 12 2 0 
遇 1 2 10 10 ) 


4.4 雪花 模型 (局 部 ) 


3. 星座 模型 


当 星 型 模型 中 有 两 个 或 两 个 以 上 的 事实 表 时 ， 形 成 的 模型 称 为 星座 模型 (Constellation 
Model)。 一 般若 数据 仓库 模型 支持 多 个 主题 时 ， 需 要 建立 星座 模型 数据 仓库 。 

【 例 4.3】 建立 一 个 数据 仓库 模型 , 表示 司机 购买 车 辆 和 驾驶 车 辆 违章 接受 处 罚 情 况 。 
该 模型 用 于 分 析 司 机 的 购车 和 驾驶 行为 ， 为 对 司机 作出 评价 决策 提供 支持 。 数 据 仓 库 中 除 
了 要 描述 和 存储 例 4.2 中 的 信息 外 ， 还 应 描述 司机 的 购车 信息 。 

在 图 4.3 的 基础 上 增加 一 个 事实 表 PurchaseVehFact， 建 立 一 个 具有 两 个 事实 表 的 星座 
模型 。 图 4.5 给 出 了 这 个 星座 模型 ， 它 同时 包含 司机 接受 驾车 违章 处 罚 和 购车 信息 。 

在 图 4.5 中 可 以 看 到 两 个 事实 表 可 以 共享 同样 一 些 维度 和 维度 表 , 包括 Driver 维度 表 、 
Vehicle 维度 表 和 Time 维度 表 。 PurchaseVeh 维度 表 描 述 了 购买 汽车 的 付款 方式 和 价格 是 否 
有 折扣 ，PurchaseVehFact 事实 表 描 述 了 司机 购买 车 辆 的 时 间 和 价格 。 


Time 维度 表 
Time Key | Year [Month [Day | hour | Minute [Second 
1 [2m| 3 [s [ww|o 0 
TraRule 
Location 维度 表 [Rule Key[RuleID| RaleName [Point| fine 
Location Key| Street | district | City 1 ”| 1001 | 违章 停车 | 2 [200 
1 Dongfang| Haidian |Beijing|| 2 1002 | 走 公交 车 道 | 0 | 200 


TraViolationFact 事 实 表 PurchaseVehFact 事实 表 


ES Re. | Ee 和 [Driver Key [Vebicle Key [Tirme Key [Purchase Key| Price 

2 2 1 四 0 3 + 1 3 3 

| 2 - 可 2 1 四 10 14OK 

Ye 了 了 
吧 PurchaseVeh 维度 表 
Driver 维度 下 

人 [Purchase Key [PurType]| memo 
[Driver Key [Driverth [DriverName | Sex | Age | Job [income Range] EduLevel] i 
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图 4.5 司机 接受 驾车 违章 处 罚 和 购车 的 星座 模型 


4.2.3 数据 集 市 


数据 集 市 (Data Marb) 是 数据 仓库 的 一 个 子 集 ， 如 果 数 据 仓库 是 面向 企业 级 主题 的 数据 
集合 ， 那 么 相对 的 ， 数 据 集 市 就 是 一 个 面向 部 门 级 主题 的 数据 集合 。 数 据 仓库 中 的 数据 是 
面向 多 个 主题 ， 而 数据 集 市 中 的 数据 是 面向 某 个 特定 主题 ， 从 某 种 意义 上 来 说 ， 数 据 集 市 
是 小 型 的 数据 仓库 。 

数据 集 市 可 以 分 为 两 种 类 型 : 独立 型 数据 集 市 和 依赖 型 数据 集 市 (Dependent Data 
Marb。 独 立 型 数据 集 市 直接 从 传统 操作 型 数据 库 或 外 部 数据 源 中 获取 数据 ;依赖 型 数据 集 
市 从 企业 级 数据 仓库 中 获取 数据 ， 往 往 需要 对 数据 仓库 中 的 数据 进行 汇总 并 计算 得 到 粒度 


级 别 较 高 的 数据 。 
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独立 型 数据 集 市 往往 是 建立 企业 级 数据 仓库 之 前 建立 的 ， 建 立 的 目的 是 在 没有 条 件 、 
投资 不 足 或 没有 时 间 建 设 大 规模 企业 级 数据 仓库 的 情况 下 ， 为 快速 解决 企业 当前 存在 的 实 
际 问 题 的 一 种 有 效 方法 。 

但 是 在 数据 仓库 建设 之 前 试图 希望 通过 建立 多 个 独立 型 数据 集 市 ， 累 积 成 为 数据 仓库 
的 想法 是 不 成 立 的 。 原 因 是 各 个 数据 集 市 之 间 存 在 着 数据 表达 和 结构 、 类 型 等 诸多 不 一 致 
性 问题 , 直接 合并 需要 做 大 量 的 一 致 性 检查 和 变换 ,工作 量 等 同 于 重新 建设 一 个 数据 仓库 。 
实际 上 ， 因 为 没有 数据 仓库 的 统一 协调 ， 相 当 规 模 的 独立 型 数据 集 市 的 发 展 ， 又 增加 了 一 
些 “ 信 息 孤 岛 ”， 背 离 了 数据 仓库 实现 分 散 、 异 构 数 据 的 交流 和 共享 的 初 束 。 恩 门 (Inmon) 
曾 比 喻 独立 型 数据 集 市 和 数据 仓库 的 关系 : “我 们 不 可 能 将 大 海里 的 小 鱼 堆 在 一 起 就 构成 
一 头 大 鲸鱼 。” 这 说 明 数 据 仓库 不 可 能 由 多 个 数据 集 市 进行 简单 合并 而 产生 。 

依赖 型 数据 集 市 是 在 数据 仓库 建立 后 ， 按 照 部 门 级 单一 主题 ， 抽 取 、 汇 总 数据 仓库 中 
的 相关 数据 产生 的 ， 在 体系 结构 上 比 独立 型 数据 集 市 更 稳定 ， 它 能 够 满足 部 门 级 数据 分 析 
和 决策 支持 的 需要 ， 是 目前 建立 数据 集 市 的 主流 。 


4.2.4 决策 支持 系统 


数据 仓库 中 的 数据 除了 可 作为 建立 依赖 型 数据 集 市 的 基础 之 外 ， 其 主要 作用 是 为 决策 
支持 提供 数据 基础 。 决 策 支持 系统 与 数据 仓库 之 间 具 有 数据 交互 ， 数 据 仓库 为 决策 支持 系 
统 提 供 面向 主题 的 分 析 数 据 ， 决 策 支持 系统 同时 也 可 以 将 数据 输入 到 数据 仓库 (如 图 4.2 所 
示 )。 从 决策 支持 系统 输入 到 数据 仓库 的 数据 都 表示 为 元 数据 的 形式 。 依 据 决 策 支 持 过 程 所 
产生 的 信息 创建 元 数据 ， 输 入 到 数据 仓库 ， 就 成 为 下 一 次 数据 仓库 建立 的 迭代 过 程 中 的 定 
义 和 规 则 ， 影 响 着 下 一 次 创建 数据 仓库 的 结果 。 

决策 支持 系统 (Decision Support System，DSS)， 是 辅助 决策 者 通过 数据 、 模 型 和 知识 ， 
以 人 机 交互 方式 进行 半 结 构 化 或 非 结 构 化 决策 的 计算 机 应 用 系统 。 它 是 管理 信息 系统 (MIS) 
向 更 高 一 级 发 展 而 产生 的 先进 信息 管理 系统 ， 主 要 功能 体现 在 为 决策 者 提供 分 析 问 题 、 建 
立 模型 、 模 拟 决策 过 程 和 方案 的 环境 ， 调 用 各 种 信息 资源 和 分 析 工 具 ， 帮 助 决 策 者 提高 决 
策 水 平和 质量 几 个 方面 。 

决策 支持 系统 的 概念 是 20 世纪 70 年 代 被 提出 来 的 ， 目 前 已 经 得 到 很 大 的 发 展 ; 20 世 
纪 80 年 代 初 ，R.H. 斯 普 拉 格 (R. HH. Sprague) 提 出 了 决策 支持 系统 三 部 件 结构 ， 包 括 对 话 部 
件 、 数 据 部 件 和 模型 部 件 ， 明 确 了 系统 的 基本 组 成 ， 极 大 地 推动 了 决策 支持 系统 的 发 展 ; 
20 世纪 80 年 代 末 到 90 年 代 初 ， 决 策 支 持 系 统 开始 与 专家 系统 (Expert System, ES) 相 结合 ， 
形成 智能 决策 支持 系统 (Intelligent Decision Support System，IDSS)。 这 种 系统 既 充 分 发 挥 了 
专家 系统 以 知识 推理 形式 解决 定性 分 析 问 题 的 特点 ， 又 发 挥 了 决策 支持 系统 以 模型 计算 为 
核心 的 解决 定量 分 析 问 题 的 特点 ， 充 分 做 到 了 定性 分 析 和 定量 分 析 的 有 机 结合 ， 使 得 解决 
问题 的 能 力 和 范围 得 到 了 一 个 大 的 发 展 ,成 为 决策 支持 系统 发 展 的 一 个 新 阶段 ; 20 世纪 90 
年 代 中 期 出 现 的 数据 仓库 、OLAP 和 数据 挖掘 新 技术 ， 三 者 的 结合 逐渐 形成 了 新 的 决策 支 
持 系统 的 概念 。 与 智能 决策 支持 系统 (此 时 称 为 传统 决策 支持 系统 ) 不 同 ， 新 的 决策 支持 系 
统 是 从 数据 中 获取 辅助 决策 信息 和 知识 ， 而 不 是 用 模型 和 知识 辅助 决策 。 进 一 步 地 ， 将 数 
据 仓 库 、OLAP、 数 据 挖掘 、 模 型 库 、 数 据 库 、 知 识 库 结合 起 来 形成 的 综合 决策 支持 系统 
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(Synthetic Decision Support System，SDSS)， 发 挥 了 传统 决策 支持 系统 和 新 决策 支持 系统 的 
辅助 决策 优势 ， 实 现 更 有 效 的 辅助 决策 ， 是 今后 的 发 展 方向 。 

决策 支持 的 形式 可 以 是 报告 数据 、 分 析 数 据 和 知识 发 现 三 个 层次 。 

(1) 报告 数据 (Reporting Data)。 报 告 数据 依赖 于 数据 查询 ， 是 最 低层 次 的 决策 支持 。 但 
是 作为 基础 ， 一 份 内 容 翔 实 的 报告 对 任何 成 功 的 商业 运作 都 是 最 为 重要 的 。 

(2) 分 析 数 据 (Analyzing Data)。 通 常用 某 种 形式 的 多 维 数据 分 析 工 具 来 完成 。 

(3) 知识 发 现 (Knowledge Discovery)。 数 据 挖掘 的 主要 任务 是 发 现 知 识 ， 但 是 ， 使 用 
些 复 杂 的 查询 和 数据 分 析 技 术 有 时 也 能 发 现 数据 中 有 趣 的 模式 。 


4.3 ”联机 分 析 处 理 


4.3.1 概述 


联机 分 析 处 理 (On-line Analytical Processing，OLAP) 是 基于 查询 和 报告 的 面向 特定 问题 
的 多 维 环境 下 的 数据 分 析 方 法 和 工具 。OLAP 能 够 对 多 维 数据 采取 不 同 的 观察 角度 ， 进 行 
全 方位 的 、 快 速 的 、 稳 定 的 和 交互 性 的 查询 和 分 析 ， 从 而 对 数据 有 更 深入 的 了 解 ， 进 而 提 
供 决策 支持 。 

OLAP 的 概念 最 早 是 由 关系 数据 库 之 父 EF. 科 德 (E.F.Codd) 于 1993 年 提出 的 ， 是 一 种 
用 于 组 织 大 型 商务 数据 库 和 支持 商务 智能 的 技术 。OLAP 作为 一 种 软件 技术 ， 除 了 具有 联 
机 特性 之 外 ， 还 具有 以 下 特点 。 

(1) 快速 性 。OLAP 的 目的 是 提供 基于 复杂 查询 的 多 维 数据 分 析 ， 具 有 较 大 的 数据 访问 
量 ， 要 求 较 快 的 反应 速度 。 

(2) 多 维 性 。OLAP 能 够 为 用 户 提供 多 角度 全 方位 观察 数据 的 可 能 , 数据 仓库 中 的 数据 
的 多 维特 性 在 OLAP 中 得 到 较 好 的 体现 。 通 常情 况 下 ，OLAP 将 数据 仓库 中 的 数据 在 逻辑 
上 建立 一 个 多 维 结构 的 数据 集 一 一 多 维 数 据 立方 体 (Multidimensional Data Cube)( 称 为 立方 
体 ， 但 不 要 求 每 个 边 的 长 度 相同 )。 数 据 立方 体 是 一 种 多 维和 矩阵 ， 如 图 4.6 所 示 ， 采 用 多 角 
度 查 询 分 析 的 方法 ， 获 取 数 据 更 深入 的 了 解 。 

(3) 可 分 析 性 。OLAP 与 数据 仓库 中 的 数据 相 比 ， 具 有 更 强 的 可 分 析 性 。OLAP 的 数据 
往往 显示 出 更 高 层次 的 统计 计算 和 汇总 数据 ， 而 不 仅仅 是 细节 数据 ， 从 而 使 用 户 能 够 获取 
更 高 层次 的 数据 观察 和 逻辑 推理 的 结果 ， 可 进行 高 层次 的 对 比分 析 ， 以 支持 用 户 的 决策 。 

(4) 信息 量 大 。OLAP 通过 从 数据 仓库 中 抽取 、 集 成 而 获得 数据 ， 数 据 查 询 和 分 析 是 在 
占有 大 量 数据 的 基础 上 进行 的 。 


Data Cube OLAP 分 析 


4.6 ”OLAP 的 多 维 性 


数据 挖掘 号 论 


【 例 4.4】 根据 


图 43 的 星 型 数据 仓库 模型 ， 建 立 一 个 面向 司机 接受 驾车 违章 处 罚 的 


OLAP 多 维 立方 体 ， 立 方 体 的 三 个 维度 分 别 为 时 间 、 职 业 和 违章 类 型 。 

如 图 4.7 所 示 的 立方 体 显示 出 三 个 维度 : Month( 月 )、Job( 职 业 )、TraRule( 违 章 类 型 )。 
数据 立方 体 的 维度 不 是 与 图 4.3 中 的 数据 仓库 维度 完全 对 应 ， 而 是 根据 OLAP 的 需要 ， 使 
用 星 型 模型 属性 集 的 子 集 。 
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月 = 12 


图 4.7 司机 接受 驾车 违章 处 罚 的 多 维 立 方 体 


数据 立方 体 不 局 限于 三 个 维度 ， 大 多 数 OLAP 系统 需要 使 用 超过 三 个 的 维度 构建 数据 
立方 体 ， 如 微软 的 SQL Server Analysis Services 工具 允许 维度 数 高 达 64 个 ， 只 是 超过 三 个 
维度 的 高 维 实体 想象 起 来 很 困难 。 

OLAP 系统 从 数据 仓库 中 抽取 详细 数据 的 一 个 子 集 并 经 过 必要 的 聚集 存储 到 OLAP 存 
储 器 中 供 前 端 分 析 工 具 读 取 , 按照 存储 器 的 数据 存储 格式 OLAP 可 以 分 为 ROLAP(Relational 
OLAP, 关系 OLAP)、MOLAP(Multidimensional OLAP, 多 维 OLAP) 和 HOLAP(Hybrid OLAP， 
混合 型 OLAP) 三 种 类 型 ， 上 述 的 多 维 立方 体 只 是 其 中 最 常用 的 一 种 类 型 。 


1. ROLAP 


ROLAP 将 分 析 使 用 的 多 维 数据 存储 在 关系 数据 库 中 ， 根 据 分 析 的 需要 ， 将 使 用 较 多 、 
计算 量 较 大 的 查询 定义 为 一 组 视图 同时 存储 在 关系 数据 库 中 ,以 提高 查询 分 析 数 据 响应 速度 。 


2. MOLAP 


MOLAP 将 OLAP 分 析 所 用 到 的 多 维 数据 以 多 维 数组 的 形式 存储 在 OLAP 存储 器 上 ， 
形成 “数据 立方 体 ”存储 结构 。 维 的 属性 值 被 映射 成 多 维 数组 的 下 标 值 或 下 标的 范围 ， 汇 


总 数据 的 值 作 为 多 维 数组 的 值 存储 在 数组 单元 中 。 由 于 MOLAP 采用 了 新 的 存储 结构 ， 从 
物理 层 实现 起 ， 因 此 又 称 为 物理 OLAP(Physical OLAP); 而 ROLAP 主要 通过 一 些 软件 工 
具 或 中 间 软 件 实现 ， 物 理 层 仍 采 用 关系 数据 库 的 存储 结构 ， 因 此 称 为 虚拟 OLAP(Virtual 
OLAP)。 


3. 混合 联机 分 析 处 理 


混合 联机 分 析 处 理 (HOLAP) 是 MOLAP 和 ROLAP 两 种 结构 的 有 机 结合 ， 综 合 发 挥 两 
者 的 优点 ， 从 而 满足 用 户 各 种 复杂 的 分 析 请 求 。 

MOLAP 结构 式 专 为 OLAP 设计 ， 具 有 性 能 良好 、 响 应 速度 快 、 管 理 渐变 、 支 持 复杂 
跨 维 计算 和 多 用 户 访问 等 优点 ， 从 而 得 到 普遍 应 用 。 目 前 ， 大 多 数 OLAP 产品 都 按照 
MOLAP 模式 进行 设计 开发 。 但 同时 应 该 看 到 ，MOLAP 结构 的 数据 装载 速度 较 慢 、 维 数 有 
限 、 不 支持 维度 的 动态 变化 以 及 与 ROLAP 沿用 现 有 的 经 过 优化 的 关系 数据 库 技 术 相 比 ， 
缺乏 数据 模型 和 数据 访问 的 标准 ， 这 就 要 求 在 设计 立方 体 时 ， 要 有 多 方面 的 重点 考虑 。 

OLAP 数据 立方 体 的 设计 是 面向 特定 问题 和 特定 用 途 的 ， 从 数据 仓库 中 应 该 抽取 哪些 
属性 数据 包含 到 立方 体 中 以 及 每 个 属性 的 粒度 ， 是 设计 立方 体 需要 重点 考虑 的 问题 。 数 据 
仓库 中 的 数据 具有 多 个 维度 , 每 个 维度 可 能 包含 多 个 属性 , 如 Driver 维度 , 具有 Sex、Age、 
Job、IncomeRange 和 EduLevel 5 个 可 分 析 属 性 , 使 用 哪些 属性 建立 立方 体 , 需要 根据 OLAP 
分 析 的 需要 进行 选择 。 图 4.7 所 示 的 多 维 立方 体 选择 配置 的 是 Job( 职 业 )、Month( 月 ) 和 
TraRule( 违 章 类 型 )。 

同时 ， 对 于 属性 的 粒度 考虑 也 是 很 重要 的 。OLAP 立方 体 的 每 个 属性 可 能 含有 一 个 或 
多 个 相关 联 的 概念 分 层 (Concept Hierarchy)。 一 个 概念 分 层 定义 了 一 个 映射 ， 从 而 允许 从 不 
同 的 细节 程度 查看 属性 。 例 如 图 4.4 中 的 雪花 模型 ，Location( 地 点 ) 是 发 生 交通 违章 的 具体 
位 置 ， 为 概念 的 最 低层 次 。 而 这 个 发 生地 点 又 位 于 某 个 City( 城 市 )， 这 个 城市 以 及 其 他 城市 
的 集合 较 之 Location 为 较 高 层次 。 而 这 个 城市 又 位 于 某 个 Province( 省 )， 这 个 省 以 及 中 国 的 
其 他 省 的 集合 较 之 City 为 更 高 的 层次 。 在 这 个 违章 地 点 属性 的 概念 分 层 中 , 具有 三 个 层次 ， 


Province 为 第 一 层 ，City 为 第 二 层 ，Location 为 第 三 层 ， 如 图 Bovine 

4.8 所 示 。 在 数据 分 析 和 辅助 决策 中 ， 属 性 数据 的 详细 程度 要 

根据 应 用 的 需要 事先 考虑 清楚 ， 以 方便 用 户 在 不 同 的 粒度 下 查 下 

看 数据 和 分 析 结 果 。 如 用 户 需 要 了 解 1 月 石家庄 的 疤 红 灯 处 罚 Location 

情况 ， 此 时 的 违章 地 点 为 City， 是 分 层 结构 中 的 第 二 层 ， 而 不 

是 细节 层 或 更 高 的 Province 层 。 图 4.8， 汗 萤 抽 训 的 概 记分 民 


设计 立方 体 时 还 有 一 个 重要 考虑 就 是 ， 控 制 立 方 体 的 稀疏 性 ， 即 避免 某 些 属性 组 合 的 
多 个 单元 是 空 的 ,没有 数据 。 例 如 , 一 个 立方 体 有 两 个 时 间 维 度 , 一 个 是 Month( 月 )(1,2.3…)， 
一 个 是 Quarter( 季 度 )(qi, qz, q3; q4)， 如 (1,q4) 或 (12,q1) 这 样 的 单元 组 合 将 永远 是 空 的 。 这样 的 
数据 立方 体 的 维度 选择 造成 了 大 量 空 单元 的 出 现 ， 浪 费 了 存储 空间 ， 降 低 了 空间 效率 。 维 
度 属 性 的 选择 不 当 ， 造 成 了 这 种 稀疏 性 的 出 现 ， 但 这 是 可 以 避免 的 ， 而 一 些 高 维 立 方 体 稀 
玻 性 的 出 现 则 是 无 法 避免 的 。 目 前 多 采用 压缩 技术 ， 进 行 稀 玻 矩阵 的 压缩 ， 但 这 种 办 法 同 
时 带 来 了 自然 索引 的 破坏 。 

sa 本 


数据 授 杨 号 论 


不 管 数据 存储 是 关系 型 还 是 多 维 的 ， 用 户 都 可 以 将 数据 看 作 多 维 结构 。 

OLAP 系统 还 需要 为 用 户 提供 查看 查询 分 析 结 果 的 窗口 ， 故 用 户 接口 的 设计 是 OLAP 
系统 需要 考虑 的 重要 问题 。OLAP 系统 的 用 户 接口 应 具备 用 户 可 以 从 不 同 的 角度 、 以 多 种 
粒度 查看 数据 以 及 可 以 进行 统计 计算 和 检验 的 功能 。 目 前 存在 多 种 用 户 接口 类 型 ， 一 种 党 
用 的 结构 就 是 Excel 的 数据 透视 表 和 数据 透视 图 。 


4.3.2 实验 : 使 用 OLAP 辅助 驾驶 员 行 为 分 析 


使 用 OLAP 对 驾驶 员 的 驾车 行为 和 接受 违章 处 罚 情况 进行 分 析 ， 以 支持 对 驾驶 员 的 评 
价 决策 。 

4.7 显示 了 利用 图 4.3 中 的 星 型 模型 数据 仓库 创建 的 三 维 数据 立方 体 , 立方 体 包含 了 
12x6x4=288 个 单元 格 ， 其 中 每 个 单元 格 中 存储 的 是 四 种 不 同 职业 的 驾驶 员 在 一 个 月 中 , 接 
受 某 项 交通 违章 处 罚 的 次 数 。 图 4.7 的 立方 体 中 标识 出 一 个 有 箭头 指向 的 立方 块 ， 它 表示 
在 12 月 份 ， 学 生 驾 车 者 接受 走 公 交 车 道 交 通 违章 处 罚 的 总 次 数 。 

【 例 4.5】 设计 一 个 OLAP 应 用 ， 和 希望 得 出 驾驶 员 驾 车 行为 和 接受 违章 处 罚 情况 的 报 
告 ， 以 支持 对 驾驶 员 的 评价 决策 。 报 告 中 包括 各 种 职业 的 驾车 者 ， 在 各 个 时 间 驾 驶 车 辆 出 
行 的 情况 、 违 反 各 项 交通 规则 的 情况 以 及 接受 交通 处 罚 的 情况 。 

通过 OLAP 的 多 维 分 析 操 作 ， 实 现 OLAP 应 用 需求 。OLAP 多 维 分 析 一 般 包括 以 下 几 
种 类 型 。 

1. 切片 

切片 (Slice) 就 是 保持 其 他 维 不 变 ， 在 OLAP 立方 体 的 一 个 维度 上 进行 选取 操作 。 如 在 
图 4.7 的 立方 体 中 ， 保 持 “ 交 通 违 章 类 型 ”和 “月 ”两 个 维度 不 变 ， 在 “职业 ”维度 上 选 
取 “ 学 生 ”， 结 果 为 一 个 原始 立方 体 的 子 立 方 体 ， 表 达 学 生 在 一 年 的 各 个 月 中 接受 各 项 违 
章 处 罚 的 情况 。 

2. 切 块 

切 块 (Dice) 是 在 两 个 或 更 多 的 维度 上 进行 选取 操作 ， 从 原始 立方 体 中 抽取 一 个 子 立方 
体 ， 甚 至 是 立方 块 。 如 在 图 4.7 的 立方 体 中 ,保持 “ 交 通 违章 类 型 ”维度 不 变 ， 在 “月 ” 
维度 上 选取 8 月 份 ， 在 “职业 ”维度 上 选取 “学 生 ”， 结 果 表示 学 生 在 8 月 份 接受 各 项 违 
章 处 罚 的 情况 。 

3. 上 卷 或 聚集 

上 卷 (Roll-Up) 或 聚集 (Aggregation) 是 对 立方 体 中 某 一 维度 的 单元 格 的 汇总 , 一 般 地 , 可 
采用 与 某 一 维度 相关 联 的 概念 分 层 来 获得 更 高 程度 的 汇总 信息 。 如 在 图 4.7 的 立方 体 中 ， 
查看 第 一 季度 学 生 接 受 违章 处 罚 的 情况 ， 即 在 “月 ”维度 上 ， 进 行 上 卷 操 作 ， 汇 总 四 个 月 
即 一 个 季度 的 数据 。 

4. 下 钻 


下 钻 (Drill-Down) 是 上 卷 的 逆 操 作 ， 以 更 加 详细 具体 的 程度 查看 数据 。 如 在 图 4.7 的 立 
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方 体 中 ， 查 看 职业 为 “教师 ”， 不 同 IncomeRange( 收 入 水 平 ) 下 司机 接受 各 项 违章 处 罚 的 
情况 。 
5. 旋转 或 转轴 


旋转 (Rotation) 或 转轴 (Pivoting) 是 变换 显示 各 个 属性 的 坐标 轴 ， 从 而 从 不 同 的 透视 角度 
来 查看 数据 。 如 在 图 4.7 的 立方 体 中 ， 可 以 将 “月 ”显示 在 水 平 轴 上 ，“ 职 业 ” 显 示 在 垂 
直 轴 上 。 

下 面 采用 OLAP 多 维 分 析 的 这 些 操作 来 实现 例 4.4 中 的 OLAP 应 用 。 针 对 应 用 需求 ， 
设计 如 下 问题 ， 完 成 查询 分 析 报 告 。 

(1) 提供 一 个 报告 ， 给 出 学 生 驾 车 者 1 月 到 12 月 接受 交通 违章 处 罚 的 情况 。 采 用 切片 
操作 ，“ 月 ”和 “交通 违章 类 型 ”维度 不 变 ， 在 “职业 ”维度 上 选取 “学 生 ” 属 性 值 ， 结 
果 立 方 体 如 图 4.9 所 示 。 

(2) 提供 一 个 报告 , 给 出 学 生 驾 车 者 1 月 到 12 月 接受 “ 闻 红 灯 ” 交 通 违章 处 罚 的 情况 。 
采用 切 块 操 作 ， 保 持 “ 月 ”维度 不 变 ， 在 “职业 ”维度 上 选取 “学 生 ” 属 性 值 ， 在 “交通 
违章 类 型 ”维度 上 选取 “ 闻 红 灯 ” 属 性 值 ， 结 果 立 方 体 如 图 4.10 所 示 。 

(3) 查看 学 生 驾 车 者 一 年 来 因 “ 交 红 灯 ” 接 受 处罚 的 总 次 数 。 采 用 上 卷 操作 ， 将 全 年 
的 情况 进行 汇总 ， 结 果 立 方 体 如 图 4.11 所 示 。 

月 = 1-12 月 
违章 类 型 = 全 部 


职业 = 学 生 
接受 处 罚 = 总 次 数 


月 


Ea 
i 
< 交通 违章 类 型 人 


4.9 在 “职业 ”维度 上 的 切片 


数据 挖掘 号 论 
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广 -一 人 职业 = 学 生 
上 接受 处罚 = 总 次 数 


火 
A | 
< 交通 韦 刘 类 型 -> 忆 -交通 韦 章 类 型 > 


图 4.10 在 “职业 ”和 “交通 违章 类 型 ”维度 上 的 切 块 图 4.11 在 “月 ”维度 上 的 上 卷 

(4) 查看 在 校 高 中 生 、 本 科 生 和 研究 生 驾 车 者 1 月 到 12 月 接受 交通 违章 处 罚 的 情况 。 
采用 下 钻 操作 , 在 职业 维度 上 选择 “学 生 ” 属 性 值 , 并 对 学 生 身份 的 驾车 者 按照 EduLevel( 受 
教育 程度 ) 分 别 给 出 接受 违章 处 罚 的 情况 报告 ， 结 果 立 方 体 如 图 4.12 所 示 。 


(5) 旋转 坐标 系 ， 使 得 水 平 轴 为 “职业 ”， 垂 直 轴 为 “月 ”， 结 果 立 方 体 如 图 4.13 
所 示 。 
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图 4.12 在 “职业 ”维度 上 “学 生 ” 属 性 什 的 下 钴 图 4.13 旋转 操作 
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除了 使 用 以 上 多 维 分 析 操 作 解 决 上 述 问 题 之 外 ， 为 了 实现 例 4.4 中 的 OLAP 应 用 ， 还 
有 一 些 问 题 需要 解决 。 

(6) 给 出 不 同 职业 在 各 项 交通 违章 中 的 次 数 的 对 比 报告 。 

(7) 给 出 全 年 交通 违章 最 多 的 月 份 。 

(8) 对 比 无 固定 收入 和 有 固定 收入 驾车 者 的 交通 违章 情况 。 

(9) 查看 有 违章 行为 ， 未 接受 处 罚 的 驾车 者 情况 。 

(10) 查看 全 年 “ 闻 红 灯 ” 次 数 最 多 的 年 龄 分 布 。 

(11) 按照 收入 水 平 ， 对 全 年 交通 违章 的 各 类 职业 驾车 者 进行 排序 。 

(12) 查看 驾驶 Cadillac 的 各 类 驾车 者 的 违章 情况 ， 等 等 。 

立方 体 的 多 维 分 析 一 般 需 要 一 系列 操作 的 组 合 才能 实现 , 如 问题 (3) 中 , 就 是 先进 行 “ 职 
业 ” 和 “交通 违章 类 型 ”两 个 维度 上 的 切 块 后 ， 再 进行 “月 ”维度 上 的 上 卷 操作 。 


4.4 使 用 Excel 数据 透视 表 和 数据 透视 图 分 析 数 据 


MS Excel 提供 数据 透视 表 (Pivot Table) 工 具 作为 用 户 接口 ， 为 用 户 查 看 和 使 用 OLAP 
立方 体 提供 支持 。 数 据 透 视 表 简单 、 易 用 ， 在 功能 上 几乎 能 够 等 同 于 一 些 高 级 OLAP 接口 
工具 ， 所 以 目前 一 些 简单 的 OLAP 应 用 选择 使 用 Excel 的 数据 透视 表 作 为 可 视 化 OLAP 分 
析 的 工具 。 


4.4.1 创建 简单 数据 透视 表 和 透视 图 


【 例 4.6】 建立 Excel 数据 透视 表 和 数据 透视 图 ， 以 多 种 方式 查看 iris 数据 集中 各 类 
高 尾 花 的 实例 情况 。 

建立 数据 透视 表 和 透视 图 的 步骤 如 下 (以 Excel 2010 为 例 )。 

(1) 用 Excel 打开 iris.xls 文件 。 

(2) 将 光标 移 到 某 个 有 数据 的 单元 格 中 ， 打 开 “ 插 入 ”菜单 ， 选 择 “数据 透视 表 ” 菜 
单项 (如 图 4.14 所 示 )， 出 现 “ 创 建 数据 透视 表 ” 对 话 框 ， 如 图 4.15 所 示 。 在 该 对 话 框 中 选 
择 要 分 析 的 数据 的 单元 格 区 域 , 或 选择 外 部 数据 源 , 本 例 中 选择 iris 数据 集 所 在 的 名 为 Data 
的 工作 表 中 的 D1 到 F151 单元 格 区 域 。 并 选择 将 数据 透视 表 放 置 在 现 有 工作 表 的 I5 单元 格 
开始 的 位 置 上 (如 图 4.15 所 示 )， 单 击 “ 确 定 ” 按 钮 。 


Ei 。 加 大 


| 回 | 图 国明 四 付 司 记 炊 四 区 由 


区 所 | 大悟 。 图 片 筋 贴 画 形 忧 SmartArt 屏 昔 类 图 芷 形 图 折 城 图 饰 图 条 形 图 面 币 


一 
回 玛 据 透视 表 由 ) 3 ia 
矶 ”数据 透视 图 (C) 二 | 1.5 

到 t E 


2.1 5.6| 2.9| 64 Vergnica 


4.14 ”新 建 iris 数据 集 的 数据 透视 表 


o 所 


数据 授 杨 号 论 


创建 数据 透视 表 


请 选择 要 分 析 的 数据 
器 选择 一 个 表 或 区 域 (8) 
表 / 区 域 (T): Data!$D$1:$F$151 
四 


连接 名 称 : 
选择 放置 数据 透视 表 的 位 置 
了 新 工作 表 (UD) 
@ 现 有 工作 表 (E) 


位 置 (L): ‘Data!$I$5 


国 


图 4.15 


a 


“创建 数据 透视 表 ” 对 话 框 


(3) 在 出 现 的 数据 透视 表 模 板 (如 图 4.16 所 示 ) 窗 口中 , 设计 透视 表 结 构 。 模 板 窗口 分 为 
两 个 区 域 ， 左 边 显示 透视 表 模板 样式 ， 为 数据 拖 忠 区 ， 引 导 放 置 相关 字段 ， 用 户 只 需 拖 动 
字段 到 相关 区 域 即 可 完成 透视 表 结 构 设计 ; 右边 为 “数据 透视 表 字 段 列表 ” 栅 格 ， 将 数据 


源 中 的 数据 列 全 部 列 在 此 处 ， 供 用 户 选择 。 


] K 上 M N 


| 将 值 


六 本 于 


字段 拖 全 此 


图 4.16 数据 透视 表 模 板 


(4) 将 Species_name 字段 拖 至 “将 行 字段 拖 至 此 处 ”和 “将 
值 字 段 拖 至 此 处 ”区 域内 ， 出 现 如 图 4.17 所 示 的 设计 结果 ， 显 示 
各 种 类 营 尾 花 的 实例 个 数 分 别 为 50 个 ，iris 数据 集中 共 150 个 


实例 。 


(5) 修改 图 4.17 透视 表 的 结果 .将 Sepal_width 和 Sepal_length 
两 个 字段 拖 至 透视 表 的 汇总 列 中 (注意 : 不 是 标题 行 ， 若 拖 至 汇总 


-| 


入 数据 透视 表 字 段 列表 vx 
| 
jsepal_vidth 
加 Sepal_length 
Species_nane 
在 以 下 区 域 间 拖 动 字段 : 


子 报表 关 选 ”加 列 标 答 


RE ;Species_name 


ss ee | tosa 
Verginica 
MM 


标题 行 上 ， 则 Sepal_width 和 Sepal length 两 个 字段 的 汇总 会 作为 4.17 ”数据 透视 表 结果 


两 列 出 现在 透视 表 中 )， 出 现 如 图 4.18 所 示 的 透视 表 结 果 


BD % 


计数 项 :Species_ name 

求 和 项 :Sepal_length 
计数 项 :Species_name 
求 和 项 :Sepal_width 
求 和 项 :Sepal_length 
计数 项 :Species_name 
求 和 项 :Sepal_width 
求 和 项 :Sepal_length 
计数 项 :Species_name 汇 总 

求 和 项 :Sepal_width 汇 总 
求 和 项 :Sepal_length 汇 总 


图 4.18 加 入 Sepal_width 和 Sepal_length 字段 的 数据 透视 表 结 果 


(6) 默认 情况 下 ， 新 添加 到 透视 表 中 的 两 个 字段 的 汇总 方式 为 “ 求 和 ”， 若 要 改 为 “ 求 
平均 值 ”， 则 选中 “ 求 和 项 : Sepal_width”， 打 开 “ 选 项 ”菜单 中 的 “ 按 值 汇总 ”菜单 按 
钮 ,选择 “平均 值 ” 选 项 , 如 图 4.19 所 示 , 此 时 汇总 数据 为 Sepal_width 的 平均 值 , Sepal_length 
同 理 设 置 。 结 果 如 图 4.20 所 示 。 

(7) “ 值 的 显示 方式 ”默认 情况 下 为 “无 计算 ”， 可 通过 “选项 ”选项 卡 将 值 的 显示 
方式 修改 为 “总 计 的 百分比 ”。 将 Species_name 计数 值 的 显示 方式 修改 为 百分比 显示 ， 结 
果 如 图 4.21 所 示 。 


[speciesname "IM 所 [fg 


计数 项 :Species_name 50| 
均值 项 :sepal width 3.428| 
习 值 项 | 5.006| 


50| 


EE 

V | nS) | | 
计数 四 Versicolor 计数 项 :Species_name 50| 

| fA) 平均 值 项 :sepal_width 2.77| 
最 大 值 (M) 平均 值 项 :sepal_length 5.936 
最 小 值 0 计数 项 :Species_name 汇 总 150| 
乘积 中 平均 值 项 :Sepal_width 汇 总 3.057333333| 
其 他 选项 (0)... | 平均 信 项 :sepal length 江 总 ”| 5.843333333| 

图 4.19 修改 汇总 计算 方法 菜单 图 4.20 修改 汇总 计算 方法 后 的 数据 透视 表 结 果 


(8) 希望 通过 数据 透视 表 查 看 数据 各 类 高 尾 花 实例 所 占 的 比例 ， 可 选择 “选项 ”菜单 
中 的 “数据 透视 图 ”按钮 ， 打 开 “ 插 入 图 表 ” 对 话 框 ， 选 择 “ 三 维 圆 锥 图 ”选项 ， 出 现 如 
图 4.22 所 示 的 数据 透视 图 。 

(9) 通过 单 击 数据 透视 图 中 的 漏斗 图 标 按钮 ， 可 以 打开 “筛选 ”菜单 ， 对 计数 项 进行 
有 选择 的 显示 。 或 通过 数据 透视 表 中 的 数据 计数 项 列 标题 中 的 下 拉 按 钮 ， 打 开 “ 筛 选 ” 菜 
单 进行 相同 的 设置 。 如 图 4.23 所 示 的 是 筛选 了 Setosa 和 Verginica 两 个 种 类 的 意 尾 花 ， 显 


示 实 例 所 占 总 计 的 比例 。 
95 本 


数据 授 杨 号 论 


1 
1 
! ; 汇总 
1 堵 项 :sp | 33.33%| 
1 平均 值 项 :Sepal_width 3.428| 一 
1 平均 值 项 :sepal_length 5.006| 40.00% -一 一 一 ~ 本 
1 Verginica 计数 项 :Species_name 33,33%| 30.00% 2 ES 
1 平均 值 项 :Sepal_width 2.974 20.00% 全 本 i -一 
1 平均 值 项 :Sepal_length 6.588| 10.00% 1 一 i 和 一 汇总 
1 Versicolor 计数 项 :species_name 33.33% ao | 一 和 y Se 
1 平均 值 项 :Sepal_width 2.77) a = 汇总 
1 平均 值 项 :Sepal_length 5.936| Vergniaa ， 
1 计数 项 :Species_name 汇 总 100.00%| Versicolor 
1 平均 值 项 :Sepal_width 汇 总 3.057333333 
1 平均 值 项 ;Sepal_lenqth 汇 总 5.843333333 paginas 
1 
图 4.21 修改 值 显 示 方 式 后 的 数据 透视 表 结果 图 4.22 ”数据 透视 图 结果 
1 
1 计 台 项:Specias name [ |] 
[species_name | 
CEE So.00 
#1 FO) Pr 
et peete 
和 从 “Species_name” 中 清除 短 (C) 汇总 
人 一- 
入 现 | wm ed 
Qe | 
ee [wy 
D vasieokee i /Ee 
et pe 
ve 
seeseses HF 
Lm] we 


图 4.23 ”经 过 计数 字段 筛选 后 的 数据 透视 图 结果 
(10) 可 以 使 用 数据 透视 表 的 下 外 (Drill-Down) 功 能 来 显示 某 个 种 类 的 高 尾 花 的 个 体 数 
据 。 在 数据 透视 表 中 ， 选 中 Setosa 类 高 尾 花 名 ， 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “展开 / 
折合” 菜单 项 中 的 “展开 ”命令 ， 如 图 4.24 所 示 。 选 择 要 显示 的 明细 数据 为 Sepal_width， 


此 时 数据 透视 表 会 将 Setosa 类 交尾 花 的 各 种 Sepal_width 值 的 分 布 比例 显示 出 来 , 如 图 4.25 
所 示 ， 实 现 了 在 意 尾 花 种 类 上 的 下 钻 操作 。 

EX 
区 2.9| 0.67% 
Verginici 和 复制 (CC) 3 引 4.00%|| 
Versicol 他 ”设置 单元 和 格式 (E)… 2 人 
a mg 33| 133%| 
排序 (S) ， 3.4| 6.00%| 
第 选中 3.5| 4.00%| 
加 3ce 了 3.6| 2.00%| 
类 汇总 “Species name” (B) Fv 国 了 2 
展开 / 折 本 日 ，| 二 RF 3.8| 2.67%| 
创建 组 (9).… 于 折 委 (9) 3.9| 1.33%| 
中 ”取消 组 合 (U). 3 RTEAFAD 村 om 
移动 (M) 国民 二 4.2| 0.67%| 
X 删除 “Species_name” (V) a 4.4| _0.67%| 
凤 字段 设置 N) Setosa 汇总 33.33%| 
到 到 Verginica 33.33s6| 
NY. 下 Versicolor 33.33%| 
国 | nD) 总 计 100.00%| 

图 4.24 实现 下 钻 操作 的 菜单 图 4.25 在 “Setosa” 营 尾 花 类 中 的 下 钻 操作 结果 


BD sw 


4.4.2 创建 多 维 透视 表 和 透视 图 


【 例 4.7】 


建立 多 维 Excel 数据 透视 表 和 数据 透视 图 ， 以 多 种 方式 查看 信用 卡 账单 促 


销 数据 集中 Magazine Promotion( 杂 志 促 销 )、Watch Promotion( 手 表 促 销 ) 和 Life Insurance 
Promotion( 寿 险 促 销 ) 与 客户 Sex( 性 别 ) 和 Income Range( 收 入 水 平 ) 之 间 的 联系 。 

本 例 中 ， 设 OLAP 应 用 的 多 维 数据 立方 体 如 图 4.26 所 示 ， 使 用 Excel 的 数据 透视 表 和 
数据 透视 图 进行 多 角度 、 多 粒度 的 多 维 数据 查看 和 分 析 。 图 4.26 中 的 立方 体 的 每 一 个 单元 
格 为 参加 或 没 参加 相关 促销 活动 的 客户 的 计数 ， 箭 头 所 指 立 方块 为 未 参加 Watch 
Promotion、Life Insurance Promotion 和 Magazine Promotion 的 客户 人 数 总 和 。 


Magazine Promotion = No 
Life Insurance Promotion = No 
[Watch Promotion = No 


68 No 

总 2 

Yes 

ke 4 
4 如 区 AN 
3 9 NC 
下 2 AN 
2% 


4.26 ”信用 卡 账单 促销 立方 体 


建立 数据 透视 表 和 透视 图 的 步骤 如 下 (以 Excel 2010 为 例 )。 
(1) 用 Excel 打开 CreditCardPromotion xls 文件 。 
(2) 将 光标 移 到 某 个 有 数据 的 单元 格 中 ， 打 开 “ 插 入 ”菜单 ， 选 择 “数据 透 视 表 ” 菜 
单项 ， 在 出 现 的 “创建 数据 透视 表 ” 对 话 框 中 选择 要 分 析 的 数据 的 单元 格 区域 ， 或 选择 外 
部 数据 源 ， 本 例 中 选择 Credit Promotion 数据 集 所 在 的 名 为 Data 的 工作 表 中 的 Al 到 G16 
单元 格 区 域 。 并 选择 将 数据 透视 表 放 置 在 现 有 工作 表 的 I5 单元 格 开始 的 位 置 上 ， 单 击 “ 确 


(3) 将 Watch Promotion 和 Life Insurance Promotion 字段 拖 至 “将 行 字段 拖 至 此 处 ”区 
域内 ， 将 Magazine Promotion 字段 拖 至 “将 列 字段 拖 至 此 处 ”区 域内 ， 将 Life Insurance 
Promotion、Watch Promotion 和 Magazine Promotion 字段 拖 至 “将 值 字 段 拖 至 此 处 ”区 域 
内 ， 将 Sex 和 Income Range 字段 拖 至 “将 报表 筛选 字段 拖 至 此 处 ”区 域内 。 数 据 透 视 表 结 
果 如 图 4.27 所 示 。 


(4) 使 有 


数据 透视 表 查 看 图 4.26 所 示 的 数据 立方 体 中 箭头 所 指 立 方块 的 值 。 在 数据 透 


视 表 的 最 左 端 找 到 Watch Promotion 二 No 子 区 域 ， 在 该 区 域内 找到 Life Insurance 


of 万 


数据 授 杨 号 论 


Promotion =No 的 子 区 域 ， 4.27 中 为 第 6 行 至 8 行 ， 再 沿 着 子 区 域 向 右 ， 找 到 Magazine 
Promotion = No 的 列 , 三 种 促销 单元 格 的 内 容 都 为 2。 此 值 说 明 共 有 两 个 客户 三 种 促销 都 未 


1 

1 

1 

1 

1 

1 参加。 

1 

1 | Income Range (全 部 ) 

1 EC Sex ( 生 宣 ) 
3 

| 4| [Magazine Promotion ~ 
5 Wateh Promotion [Life Ins Promotion -| 吉 丘 No EE 

1 6| | 计数 项 -Watch Promotion 2 下 4 

1 七 到 计数 项 -Life Ins Promotion 2 2| 4 

1 [| 计 圳 项 :Magazine Promotion 2 2 4 

9 | PEST 2 3 

1 0| 计数 项 -Life Ins Promotion 1 2 al 

1 mi 计数 项 :Magazine Promotion 1 2 3 

1 12 No 计 到 项 Watch Promouon 3 外 7 

1 13 INo 计数 项 -Lifo Ins Promotion 3 4 7 
14 [No 计数 项 -Magazine Promotion 3 4 了 

15| SYes No 计 歌 项 -Watch Promolion 2 2 

1 16| 计数 项 :Life Ins Promotion 2 2 

1 了 | 计数 项 -Magazine Promotion 2 2 
18| es 计数 项 Watch Promotion 2 6 
四 计数 项 :Life Ins Promotion 2 4 8 
20 计数 项 Magazine Promotion 2 4 0 
21 Yes 计 到 项 Watch Promotion 4 8 
22 Yes 计数 项 Life Ins Promotion 4 4| 8 
23 Yes 计数 俩 ne Promotion 4 4| 8 
24 计数 项 -Watch PromotiontC 总 7 Bl 15 
25 计数 项 Life Ins Promotion 汇 总 7 8 15 
26| | 计 癌 项-Magazine Promotioni 可 7 8| 15 


图 4.27 ”信用卡 账单 促销 数据 集 数据 透视 表 

(5) 可 以 通过 下 钻 来 检查 单元 格 所 表示 的 各 条 记录 的 具体 细节 。 方 法 是 在 任何 一 个 包 
含 值 “2” 的 单元 格 中 双击 ， 会 在 Sheetl 中 显示 这 个 单元 格 包含 的 数字 的 记录 细节 。 如 在 
第 一 个 包含 “2” 的 值 单元 格 中 双击 ， 出 现 如 图 4.28 所 示 的 Sheetl 工作 表 。 


T A 6 I C D s Pp 
,1 [income Ran Promotion Watch Promotion Life ins Promotion Credit Card Ins. Sex 
, 2 |20-30.000 No No No No Female 55 
3 |40-50.000 No No No No Male 42 
M4 bMSheetl Data Description Sheet3 /13 DA 


4.28 ”查看 三 种 促销 都 未 接受 的 记录 细节 


(6) 在 数据 透视 表 的 左上 角 可 以 看 到 按 报表 筛选 的 字段 Income Range 和 Sex， 用 这 两 
个 字段 对 数据 透视 表 中 显示 的 数据 进行 筛选 。 方 法 是 单 击 mcome Range 下 拉 列 表 框 ， 从 中 
选择 20-30000， 然 后 单 击 “确定 ”按钮 ， 再 单 击 Sex 下 拉 按 钮 ， 从 中 选择 Female， 然 后 单 
击 “ 确 定 ” 按 钮 。 此 时 数据 透视 表 显 示 出 Income Range 收入 水 平 为 20-30000 之 间 的 女性 接 
受 促 销 情况 的 汇总 数据 ， 如 图 4.29 所 示 。 表 中 显示 出 有 两 名 女性 客户 处 于 筛选 范围 内 ， 其 
中 没有 女性 客户 参加 Watch Promotion 或 Magazine Promotion， 但 有 一 个 女性 客户 接受 了 
Life Insurance Promotion。 通 过 查看 其 他 的 Income Range 数据 ， 如 图 4.30 所 示 ， 可 以 发 现 
在 30 000-40 000 之 间 的 女性 是 促销 活动 最 热心 的 参与 者 。 报 表 筛 选 功能 为 Excel 数据 透视 
表 的 分 析 能 力 增加 了 新 的 维度 。 


BD % 


Income 20-30.000 区 
Sex Female 了 | 
Magazine Promotion | 
Watch Promotion "|Le ms Promotion ”| 数据 No 总计 
3No No 计数 顶 Watch Promotion 二 1 
计 教 项 :Life Ins Promotion 1 1 
计数 项 .Magazine Promotion 1 1 
Yes 计数 项 Watch Promotion 人 1 
计 堵 项 -Life Ins Promotion 1 1 
计数 项 Magazine Promouon i 
No 计数 项 Watch Promotion 2 3 
No 计数 项 -Life Ins Promotion 2| 2 
No 计 孝 项 Magazine Promotion 2| _ 32| 
计数 项 Watch Promotion 汇 总 2| 32| 
计 表 项 Life Ins Promotion 汇 总 2 2l 
计 埃 项 Magezine Promotion 汇 总 2 a 


4.29 报表 筛选 后 的 数据 透视 表 结 果 


agazine Promotion 


【watch Promotion 
日 Yes 


了 |Life Ins Promotion 


了 | 数据 

计数 项 -Watch Promotion 
计数 项 :Life Ins Promotion 
计数 项 :Magazine Promotion 


Yes 计数 项 :Watch Promotion 
Yes 计数 项 :Life Ins Promotion 
一 上 
中 计数 项 :Watch Promotion 汇 总 

上 [计数 项 :Life Ins Promotion 汇 总 

上 [计数 项 :Magazine Promotion 汇 总 


图 4.30 ”收入 水 平 在 30000-40000 之 间 的 女性 是 促销 活动 最 热心 的 参与 者 


(7) 建立 数据 透视 图 。 单 击 图 4.29 中 的 数据 透视 表 ， 打 开 “ 插 入 ”菜单 ， 选 择 插入 任 
意 类 型 的 图 表 。 图 4.31 为 选择 插入 圆 环 图 ， 并 且 将 三 种 促销 全 部 筛选 为 No 的 结果 。 


| 和 4 FS) 
姑 用 序 (O) 
其 他 排序 选 IIM)… 
系 从 “Watch Promotion” 中 清除 视 选 (C) 
值 策 迁 (V) , 
得 家 忆 
男 (全 选 ) 
ye 
口 Yes 
一 ~ 
| Ineone .JS 
计 教 硕 :Watch Pro. .。 计 孝 项 :Li 放 
Lite me Pronotion SF 
者 值 


和 No No 计数 项 :Watch 
Promotion 


有 
| TREE Ed| 
| 


4.31 未 参加 三 种 促销 的 客户 的 数据 透 


oo 太 


数据 授 杨 号 论 


本 章 内 容 概述 如 图 4.32 所 示 。 
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图 4.32 第 4 章 内 容 导 图 


传统 数据 库 的 设计 目的 主要 是 为 处 理 日 常事 务 服务 的 ， 表 达 现 实 世界 的 事物 和 事物 之 
间 的 关系 的 数据 常 以 一 组 规范 化 的 关系 表 的 形式 存放 在 数据 库 中 。 规 范 化 能 够 最 小 化 数据 
元 余 ， 对 于 需要 高 效 进行 日 常事 务 处 理 的 数据 库 系 统 尤 为 重要 。 但 是 ， 以 数据 分 析 支 持 决 
策 为 目的 建立 的 数据 仓库 ， 因 其 需要 大 量 的 、 集 成 的 、 历 史 的 、 反 映 事物 之 间 复 杂 联 系 的 
数据 ， 故 经 常 需要 对 数据 库 中 的 数据 进行 反 向 规范 化 。 

组 织 一 个 数据 仓库 有 多 维 数组 和 关系 模型 两 种 方式 ， 两 种 方式 下 用 户 看 到 的 数据 逻辑 
结构 都 以 一 种 多 维 数据 形式 表示 。 其 中 星 型 模型 是 最 为 常用 的 数据 仓库 模型 ， 它 使 用 一 
中 心事 实 表 和 多 个 维度 表 来 表达 数据 仓库 数据 的 多 维 结构 。 由 星 型 模型 衍生 出 维度 表 分 层 
的 雪花 模型 和 多 个 事实 表 的 星座 模型 。 

数据 仓库 的 主要 功能 是 用 于 决策 支持 。 决 策 支持 包括 报告 数据 、 分 析 数 据 和 知识 发 现 
三 种 形式 。 数 据 报告 可 以 产生 数据 的 详细 报表 ， 知 识 发 现 通 过 数据 挖掘 来 实现 ， 而 数据 分 
析 可 以 使 用 OLAP 技术 来 实现 。OLAP 技术 是 一 种 基于 查询 、 支 持 多 维 环境 下 数据 分 析 的 
方法 和 工具 。OLAP 系统 将 数据 仓库 中 的 数据 在 逻辑 上 看 成 是 一 个 多 维 数据 立方 体 ， 基 于 
多 维 数据 分 析 的 一 个 特定 问题 的 解决 可 以 用 一 个 OLAP 应 用 来 表示 ， 解 决 应 用 的 OLAP 操 
作 一 般 包 括 对 多 维 数据 立方 体 的 切片 、 切 块 、 上 卷 、 下 钻 和 旋转 。OLAP 工具 一 般 需要 一 
个 友好 的 用 户 界面 ， 能 够 从 不 同 透视 角度 显示 数据 ， 执 行 统计 分 析 ， 以 及 以 不 同 粒度 查看 
数据 。MS Excel 的 数据 透视 表 和 透视 图 提供 这 些 功能 


习 题 


1. 观察 图 4.3 的 星 型 模型 ， 给 出 某 月 高 收入 教师 的 交通 违章 情况 的 报告 ， 说 明 通 过 哪 
些 OLAP 操作 来 实现 ， 画 出 操作 结果 的 多 维 数据 立方 体 。 
2. 画 出 例 44 中 的 问题 (6) 一 (12) 的 OLAP 操作 所 创建 的 OLAP 立方 体 。 
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3. 画 出 三 维 OLAP 立方 体 ， 三 个 维度 分 别 为 VehicleName、EduLevel 和 TraRule。 描 
述 几 种 从 数据 立方 体 中 抽取 有 用 信息 的 切片 、 切 块 、 上 卷 和 下 钻 操作 。 

4. 用 Building.xls 数据 集 文件 构造 一 个 数据 透视 表 。 设 计 一 个 至 少 包 括 5 个 问题 和 1 
个 假设 检验 的 OLAP 应 用 。 其 中 行 属性 、 列 属性 、 值 区 域 和 报表 筛选 字段 自 定 。 

5. 通过 图 4.27 的 数据 透视 表 回 答 下 列 问题 。 

(1) 有 多 少 客户 参加 过 促销 活动 ? 

(2) 有 多 少男 性 客户 收入 在 20000 到 30000 之 间 ? 

(3) 假设 检验 : 同时 参加 了 Watch Promotion、Magazine Promotion 和 Life Insurance 
Promotion 的 客户 同时 也 购买 了 Credit Card Insurance。 
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第 5 章 评估 技术 
本 章 要 点 提示 
模型 的 性 能 评估 是 数据 控 据 过 程 中 非常 重要 的 步骤 ， 是 模型 是 否 能 够 最 终 投入 实际 应 
用 的 一 个 重要 环节 。 本 章 对 有 指导 的 和 无 指导 的 模型 的 评估 方法 和 技术 进行 简单 介绍 。 
本 章 5.1 节 对 评估 的 内 容 和 工具 进行 了 概述 ; 5.2 节 将 介绍 了 具有 分 类 输出 的 有 指导 学 
习 模 型 的 最 基本 评估 工具 一 一 检验 集 分 类 正确 率 和 混 消 矩 阵 、 数 值 型 输出 模型 的 评估 、 检 
验 置 信 区 间 的 计算 以 及 无 指导 聚 类 技术 对 于 有 指导 学 习 模 型 的 评估 作用 ; 5.3 节 介 绍 了 有 指 
导 学 习 模 型 的 比较 方法 ， 重 点 讨论 利用 Littt 和 假设 检验 对 两 个 有 指导 学 习 模 型 的 性 能 进行 
比较 ; 5.4 节 重 点 讨论 了 属性 评估 ， 使 用 MS Excel 的 函数 和 散 点 图 进行 属性 相关 性 分 析 ， 
以 及 在 属性 选择 中 ， 如 何 通过 应 用 经 典 的 假设 检验 模型 来 确定 数值 属性 的 重要 性 ; 5.5 节 介 
绍 了 几 种 无 指导 聚 类 模型 的 评估 方法 。 


5.1 数据 挖掘 评估 概述 


5.1.1 评估 内 容 


在 抽取 某 些 数据 实例 和 属性 ， 选 择 某 种 数据 挖掘 技术 ， 设 置 某 些 参数 进行 有 指导 的 学 
习 训练 和 无 指导 的 聚 类 分 析 之 后 ， 所 建立 的 模型 在 性 能 上 差强人意 ， 不 能 满足 解决 实际 问 
题 的 需求 ， 此 时 ， 需 要 对 这 个 过 程 中 所 有 可 能 对 模型 性 能 产生 影响 的 因素 进行 检查 和 评估 ， 
找 出 可 能 的 问题 所 在 加 以 调整 ， 重 复 实 验 ， 直 到 模型 性 能 达到 预期 的 标准 。 图 5.1 给 出 了 
在 建立 模型 的 过 程 中 可 能 对 模型 性 能 产生 影响 的 因素 。 


无 引导 聚 类 模型 |、 
> SR 
a 

se 
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图 5.1 数据 挖掘 过 程 中 涉及 评估 的 内 容 和 环节 
(1) 数据 。 高 质量 而 合适 的 数据 很 大 程度 上 影响 着 模型 的 质量 。 对 于 有 指导 的 学 习 模 
型 ， 训 练 集 是 否 包 含 了 各 个 类 的 具有 代表 性 的 实例 、 是 否 包含 了 大 量 的 非典 型 性 实例 、 其 
属性 是 否 对 分 类 具有 良好 的 预测 能 力 等 ， 都 能 直接 影响 着 分 类 器 的 检验 集 正 确 率 。 
为 了 保证 从 原始 数据 集中 选取 的 训练 集 实例 具有 良好 的 代表 性 , 应 随机 选取 训练 数据 ， 
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以 确保 训练 数据 中 包含 的 类 的 分 布 与 总 体 中 的 分 布 相 同 。 首 先 可 以 对 数据 应 用 分 层 法 
(CStratificatiom) 进 行 分 类 收集 和 整理 ， 应 用 概念 层 化 方法 处 理 数据 ， 以 确保 数据 合理 的 分 布 。 
还 可 以 通过 检查 已 形成 的 训练 集中 的 实例 的 典型 性 值 来 确保 不 会 出 现 训练 集中 未 包含 具有 
代表 性 的 实例 和 包含 了 大 量 非 典型 实例 的 情况 。 

对 于 属性 是 否 具有 良好 的 分 类 预测 能 力 ， 可 以 进行 属性 评估 。 属 性 评估 可 以 采取 查找 
元 余 属性 和 假设 检验 的 方法 来 检查 属性 的 重要 性 ， 以 确保 具有 较 高 重要 性 值 的 属性 留 在 挖 
掘 数据 集中 。 

(2) 参数 。 在 数据 挖掘 的 模型 建立 过 程 中 ， 需 要 设置 一 个 或 多 个 参数 ， 这 些 参 数 对 于 
模型 性 能 的 影响 可 能 会 很 大 。 如 神经 网 络 模型 隐 层 的 个 数 及 每 个 隐 层 的 节点 个 数 ， 以 及 一 
些 迭 代 算法 的 欠 代 终止 参数 的 设置 ， 对 模型 最 后 的 效果 的 影响 是 非常 大 的 。 可 以 对 设置 不 
同 参数 建立 的 模型 ， 采 取 模 型 比较 技术 来 对 比 模型 的 性 能 ， 为 选择 合适 的 模型 提供 依据 。 

(3) 数据 挖掘 技术 。 用 不 同 的 数据 挖掘 技术 建立 的 有 指导 学 习 模型 显示 出 的 检验 集 正 
确 率 往往 相差 无 几 。 那么, 数据 挖掘 技术 的 选择 是 否 不 能 作为 影响 模型 性 能 的 一 个 因素 呢 ? 
实际 上 ， 对 于 不 同 特点 的 数据 集 ， 数 据 挖掘 技术 的 选择 不 同 的 确 会 对 模型 效果 有 影响 ， 如 
很 多 情况 下 ， 使 用 统计 技术 之 前 ， 需 要 假设 数据 是 正 态 分 布 的 ， 但 如 果 这 个 假设 无 效 ， 在 
选择 基于 统计 的 数据 挖掘 技术 时 就 要 慎重 。 又 比如 ， 当 训练 数据 包含 大 量 缺 失 数据 或 噪声 
数据 时 ， 神 经 网 络 技术 更 优 于 其 他 有 指导 的 学 习 技 术 。 这 时 的 关键 问题 是 ， 如 何 对 采取 不 
同 技术 建立 的 模型 进行 性 能 上 的 评估 ， 确 定 它们 的 性 能 之 间 是 否 存在 着 显著 的 差异 。 

(4) 模型 。 对 于 有 指导 的 学 习 模型 ， 通 常 在 检验 数据 上 进行 评估 ， 采 取 的 基本 方法 是 
使 用 检验 集 的 分 类 正确 率 (错误 率 ) 和 混淆 矩阵 进行 最 基本 的 评估 ， 再 使 用 统计 学 中 的 置信 
区 间 对 这 个 评估 结果 的 可 信 程 度 进行 检验 。 同 时 ， 不 能 单纯 地 利用 分 类 正确 率 ( 错 误 率 ) 指 
标 对 模型 性 能 加 以 评判 ,还 需要 对 实际 情况 加 以 分 析 ， 如 不 同类 型 的 分 类 错误 的 偏好 情况 ， 
是 偏好 收益 而 能 够 承受 风险 ， 还 是 宁肯 损失 收益 也 不 能 承受 风险 。 不 同类 型 的 实际 情况 ， 
也 是 评估 和 选择 模型 的 重要 依据 。 

对 于 无 指导 聚 类 模型 的 评估 ， 通常 情况 下 ,要 比 评估 有 指导 学 习 模 型 更 困难 。 一 般 地 ， 
可 以 计算 每 个 取 类 形成 的 簇 中 的 实例 与 该 簇 中 心 的 误差 平方 和 作为 簇 的 质量 的 度量 。 然 而 ， 
使 用 更 多 的 方法 是 应 用 有 指导 学 习 方法 来 评估 无 指导 聚 类 模型 的 性 能 。 

(5) 检验 集 。 一 般 地 ， 对 于 有 指导 的 学 习 ， 数 据 集 数据 分 为 训练 数据 和 检验 数据 ， 检 
验 集 用 于 在 建 模 中 提供 度量 模型 性 能 的 数据 ， 在 检验 集 上 的 评估 称 为 检验 集 评估 (Test Set 
Evaluation)。 检 验 集 数据 应 该 随机 选取 ， 并 适当 地 使 用 层 化 处 理 ， 确 保 其 分 布 的 合理 性 。 
若 不 能 得 到 足够 的 检验 集 数据 ， 可 以 采取 交叉 验证 (Cross Validation) 技 术 。 交 叉 检 验 技术 有 
多 种 ， 能 够 确保 训练 集 和 检验 集中 的 类 的 分 布 是 均匀 的 。 


5.1.2 评估 工具 


1. 混淆 矩阵 和 分 类 正确 率 


混淆 矩阵 (Confusion Matrix) 是 评估 有 指导 学 习 模型 的 基本 工具 ， 它 能 够 直观 地 给 出 模 
型 检验 集 分 类 正确 或 错误 的 情况 。 
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混淆 矩阵 是 机 器 学 习 中 一 种 分 类 效果 可 视 化 工具 ， 表 现 为 一 个 二 维 表 和 矩阵， 如 表 5.1 
所 示 。 表 中 的 CO、 和 Cs3 表示 模型 有 三 个 分 类 ， Ci Cs 2 C33 表示 分 类 到 三 个 分 类 
中 的 数据 实例 的 个 数 。 和 矩阵 中 的 一 行 表示 实际 为 CI、Cs 和 Cs 类 的 检验 集 实例 被 模型 分 别 
分 类 到 Cl、C 和 C 类 的 个 数 。 则 通过 混淆 矩 阵 可 以 得 出 六 六 c 为 检验 集 实例 总 数 ， 对 角 


线 上 的 数值 Cu、C2z 和 Css 分 别 表 示 被 模型 正确 分 类 到 C1!、Cs 和 Cs 类 中 的 实例 数 。 其 余 
的 非 对 角 线 上 的 数值 为 被 模型 分 类 错误 的 实例 数 。C; 行 的 值 表示 属于 Ci 类 的 实例 。 如 天 2 
时 ， 行 中 的 Ci、C2>、C2s 都 是 C 类 的 实例 个 数 ， 其 和 为 Cs 类 的 实例 总 数 。C2 类 的 实例 被 
错误 地 划分 到 其 他 类 的 实例 总 数 为 Cz 与 Cs 的 和 。 而 C; 列 的 值 表示 已 经 被 模型 分 类 到 CG; 
类 的 实例 数 。 如 关 2 时 ， 列 中 的 Ci。、Cz2、C3z 都 是 被 模型 划分 为 C 类 的 实例 个 数 。 被 模 
型 错误 地 划分 到 Cs 类 的 其 他 类 的 实例 的 总 数 是 Cu 与 Caz 的 和 。 

可 以 使 用 混淆 矩阵 中 的 数值 来 计算 模型 的 准确 度 。 将 主 对 角 线 上 的 值 之 和 除 以 检验 集 
实例 总 数 ， 即 得 到 模型 的 检验 集 分 类 正确 率 。 由 于 模型 准确 度 经 常 表 示 为 错误 率 ， 可 以 使 
用 1.0 减 去 模型 正确 率 值 来 计算 模型 的 错误 率 。 模 型 的 检验 集 分 类 正确 率 计算 公式 如 式 (5.1) 
所 示 ， 模 型 的 检验 集 分 类 错误 率 计算 公式 如 式 (5.2) 所 示 。 


表 5.1 混淆 矩阵 


【 例 5.1】 假设 建立 分 类 模型 M， 它 将 检验 集 实例 分 为 了 三 类 ， 混 淆 矩阵 如 表 5.2 所 
示 ， 计 算 M 的 分 类 正确 率 和 错误 率 。 


小 


225% 
模型 检验 集 正 确 率 = 导 太一 (5.1) 
> 
模型 检验 集 错误 率 = 气 必 2 “ 或 1- 模 型 检验 集 正确 率 (G2) 


M 的 分 类 正确 率 为 : (43+40+45)/(43+2+5+7+40+3+4+1+45)= 128/150=85.33% 
M 的 分 类 错误 率 为 : (2+5+7+3+4+1)/150 = 22/150 = 14.67% 或 者 1-85.33%=14.67% 
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2. 统计 学 方法 

我 们 的 生活 、 学 习 和 工作 都 离 不 开 统 计 学 (Statistics)， 简 称 为 统计 。 一 般 来 说 ， 统 计 学 
是 对 客观 事物 的 数量 特征 和 数据 资料 进行 收集 、 整 理 、 分 析 和 研究 ， 以 显示 其 总 体 的 特征 
和 规律 性 。 

生活 中 通过 统计 发 现 经 常 能 够 获得 如 北京 地 区 18 一 24 岁 女 生 的 平均 身高 、 中 国 男性 的 
平均 寿命 、 上 海 家 庭 的 平均 年 收入 等 数据 。 这 些 统计 发 现 不 可 能 是 调查 了 所 有 的 北京 地 区 
的 18 一 24 岁 女生 的 身高 、 所 有 中 国 男性 的 寿命 和 所 有 上 海 的 家 庭 , 通常 是 通过 随机 采样 过 
程 收集 到 的 数据 ， 例 如 ， 通 过 对 上 海 每 种 类 型 的 家 庭 进 行 抽样 调查 ， 根 据 一 般 总 体 和 样本 
分 布 的 一 致 性 假设 及 一 个 误差 阔 值 ， 来 报告 统计 的 结果 。 在 对 数据 挖掘 模型 的 性 能 进行 评 
估 时 ， 可 将 检验 集 实例 看 成 总 体 的 一 个 或 多 个 抽样 样本 ， 如 果 能 够 确定 样本 分 布 与 总 体 分 
布 的 一 致 性 ， 以 及 能 够 计算 得 出 假设 的 置信 区 间 ， 就 能 够 将 数据 挖掘 的 实验 结果 与 统计 量 
联系 起 来 ， 使 用 统计 学 方法 来 评估 模型 性 能 。 

统计 学 中 经 常会 使 用 以 下 基本 概念 ， 这 些 概念 是 模型 评估 的 统计 方法 的 基础 。 

(1) 均值 和 标准 差 。 

数值 数据 的 一 个 总 体 可 以 用 均值 、 标 准 差 和 数据 中 出 现 的 值 的 频率 或 概率 分 布 来 唯一 
定义 。 

均值 (Mean) 就 是 平均 值 ， 用 jy 表 示 ， 是 所 有 数据 的 平均 数 。 

方差 (Variance) 度 量 了 每 个 数据 与 均值 的 离 差 量 , 用 co" 表示, 是 所 有 数据 与 均值 之 差 的 
平方 和 的 平均 值 。 标 准 ( 偏 ) 差 (Standard Deviation，SD)， 用 o 表示 ， 是 方差 的 平方 根 ， 公 式 


如 下 ; 
o = -10) (53) 


其 中 ，x1，x2，*…，Xi，xn 为 数值 数据 ，n 为 数据 总 数 。 

标准 差 是 一 组 数据 距离 其 均值 的 分 散 程度 的 一 种 度量 。 标 准 差 越 大 ， 表 示 大 部 分 数据 
值 距离 其 均值 的 差异 越 大 ， 标 准 差 越 小 ， 表 示 这 些 数据 值 越 接近 均值 。 

均值 和 标准 差 是 定义 总 体 时 非常 有 用 的 统计 量 ， 但 是 ， 在 两 个 总 体 的 均值 和 标准 差 都 
非常 相似 的 情况 下 ， 总 体 中 各 数据 之 间 仍 然 可 能 有 显著 的 差异 。 此 时 ， 考 查 总 体内 部 的 数 
据 分 布 就 显得 尤为 重要 了 。 

(2) 总 体 分 布 。 

总 体 分 布 (Population Distribution) 可 能 是 正 态 分 布 、 指 数 分 布 、Gamma 分 布 等 ， 其 中 正 
态 分 布 (Normal Distributiom) 是 一 种 容易 理解 、 很 重要 的 数据 分 布 ， 也 被 称 为 高 斯 曲线 或 正 
态 概率 曲线 。 一 些 数据 挖掘 模型 假定 数值 属性 为 正 态 分 布 ， 如 第 7 章 所 讨论 的 统计 技术 就 
是 基于 正 态 分 布 的 数据 集 。 同 时 ， 可 以 使 用 正 态 分 布 的 特性 来 评估 数据 挖掘 模型 的 性 能 。 

正 态 曲线 ， 或 称 钟 形 曲线 ， 是 在 1733 年 由 法 国 数学 家 亚伯拉罕 。 棣 莫 弗 (Abraham de 
Moivre) 在 为 富有 的 赌 徒 解决 问题 时 偶然 发 现 的 。 当 时 他 正在 记录 掷 硬币 过 程 中 正面 朝 上 和 
朝 下 出 现 的 次 数 。 这 次 实验 中 ， 他 反复 掷 一 个 硬币 ， 以 10 次 为 一 组 ， 记 下 正面 朝 上 的 平均 
次 数 。 他 发 现 这 个 平均 数 , 也 是 最 常 出 现 的 次 数 是 5。6 次 和 4 次 出 现 次 数 相同 , 位 居 第 二 。 
7 次 和 3 次 出 现 次 数 相 同 ， 然 后 是 8 次 和 2 次 ， 依 次 类 推 。 现 实生 活 中 的 许多 现象 ， 如 阅 
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读 能 力 、 身 高 、 体 重 、 智 商 、 工 作 满 意 率 的 度量 等 ， 都 被 证 明 是 正 态 分 布 。 

图 5.2 显示 了 一 张 正 态 曲 线 图 。x 轴 中 心 的 0 表示 算术 均值 w。 均 值 两 边 的 整数 表示 相 
对 均值 的 标准 差 的 个 数 。 例 如 ， 如 果 数 据 是 正 态 分 布 的 ， 则 有 大 约 34.13% 的 值 落 在 均值 与 
大 于 均值 的 一 个 标准 差 之 间 ， 同 样 有 34.13% 的 值 落 在 均值 与 低 于 均值 的 一 个 标准 差 之 间 。 
即 ， 可 以 期 望 大 约 有 68.26% 的 值 落 在 均值 两 边 的 一 个 标准 差 范围 内 。 
例如 ， 假 设 考试 成 绩 是 正 态 分 布 的 ， 均 值 是 80 分 ， 标 准 偏差 是 5 分 。 即 可 以 期 望 有 
68.26% 的 学 生 考试 成 绩 在 75 分 到 85 分 之 间 ， 同 样 有 95% 的 学 生 的 分 数 在 70 分 到 90 分 之 
间 。 可 以 说 ， 可 以 95% 地 确信 所 有 的 学 生成 绩 落 在 均值 成 绩 80 分 的 两 个 标准 差 范围 内 。 


图 5.2 正 态 分 布 


G) 正 态 分 布 和 样本 均值 。 

对 于 大 型 数据 总 体 ， 很 难 通过 总 体 数据 获得 总 体 分 布 ， 如 上 海 所 有 家 庭 的 年 收入 的 分 
布 情况 。 一 般 通过 抽样 调查 的 方法 得 到 样本 数据 ， 计 算 样本 数据 的 分 布 ， 若 能 够 确定 样本 
数据 的 分 布 与 总 体 数据 的 分 布 一 致 ， 则 可 以 使 用 样本 数据 的 分 布 来 表示 总 体 数据 的 分 布 。 
那么 在 总 体 数据 是 正 态 分 布 的 情况 下 ， 如 何 能 够 保证 样本 数据 也 是 正 态 分布 的 呢 ? 统计 学 
已 经 给 出 结论 ， 只 要 是 从 总 体 中 随机 抽取 大 小 相同 的 独立 样本 集 ， 如 图 53 则 可 以 保证 取 
得 的 样本 均值 的 分 布 是 正 态 分 布 。 

比如 要 获得 上 海地 区 家 庭 年 收入 均值 ,可 以 从 上 海地 区 的 所 有 家 庭 中 , 抽样 100000 个 
家 庭 来 计算 家 庭 年 收入 均值 。 那 么 对 于 根据 样本 数据 计 。 te ei 
算出 的 均值 作为 总 体 家 庭 年 收入 均值 的 准确 估计 ， 有 多 
大 的 置信 度 呢 ? 通过 以 上 结论 ， 可 以 多 次 随机 抽取 大 小 
相同 的 样本 记录 ， 计 算 每 次 的 随机 样本 均值 ， 这 些 均值 
的 分 布 是 正 态 的 ， 其 中 任何 一 个 样本 均值 都 是 总 体 均值 
的 无 偏 估计 ， 则 可 以 认为 大 小 相等 的 随机 样本 的 均值 的 
平均 数 等 于 总 体 均值 。 

通过 上 面 的 结论 得 到 随机 样本 的 均值 是 总 体 均值 的 
无 偏 估计 ， 若 将 样本 均值 作为 总 体 均值 ， 那 么 有 多 大 的 
置信 程度 ， 或 者 说 如 何 计算 所 得 的 样本 均值 的 置信 区 间 图 53 总 体 的 随机 抽样 
是 多 少 。 首 先 使 用 样本 方差 估计 总 体 方差 ， 再 计算 标准 
误差 (Standard Error，SE)。 注 意 标准 误差 与 标准 差 完全 不 同 。 标 准 误差 是 所 估计 的 总 体 广 
差 的 平方 根 。 计 算 标准 误差 的 公式 如 下 : 
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SE= 上 上 (5.4) 


其 中 : vy 是 样本 方差 ，n 是 样本 实例 个 数 ， v/n 为 总 体 方差 的 估计 。 

由 于 样本 均值 的 总 体 是 正 态 分 布 的 , 并 且 标 准 误差 是 总 体 方差 的 估计 , 则 可 以 说 : 95% 
的 情况 下 ， 任 何 样本 均值 与 总 体 均值 的 偏差 在 正 负 两 个 标准 误差 之 内 。 即 对 上 海 家 庭 进 行 
抽样 ， 若 计算 得 到 的 样本 年 收入 均值 为 80000 元 ， 则 可 以 认为 实际 的 上 海地 区 家 庭 年 收入 
均值 落 在 80000 元 的 正 负 两 个 标准 误差 范围 内 的 置信 度 是 95%。 假 设 标准 误差 是 1000 元 ， 
则 可 以 95% 地 确定 上 海地 区 家 庭 收 入 均值 在 在 78000 到 82000 之 间 。 

(4) 假设 检验 (Hypothesis Testing) 与 Z 检验 (Z-Testing)。 

假设 检验 是 一 种 统计 推理 方法 ， 用 来 判断 样本 与 样本 、 样 本 与 总 体 之 间 的 差异 是 由 抽 
样 误差 引起 还 是 本 质 差别 造成 的 。 其 基本 原理 是 先 声明 一 个 用 于 检验 的 假设 Ho 一 一 零 假设 
(Null Hypothesis)。 零 假设 又 称 原 假设 , 或 虚无 假设 , 其 内 容 一 般 是 希望 证 明 其 错误 的 假设 。 
如 在 相关 性 检验 中 ， 一 般 会 设 “ 两 者 之 间 没 有 关联 ”作为 零 假设 ， 而 在 显著 性 检验 中 ， 一 
般 会 设 “ 两 者 之 间 没 有 显著 差异 ”作为 零 假设 。 再 用 抽样 研究 的 统计 推理 方法 检验 零 假设 
是 否 成 立 。 零 假设 合理 与 否 的 依据 是 在 该 假设 下 是 否 得 到 了 不 合理 的 结果 ,如果 结果 合理 ， 
接受 零 假 设 ， 如 果 不 合理 ， 则 拒绝 零 假设 。 其 中 不 合理 的 结果 指 的 是 在 一 次 实验 中 ， 出 现 
了 小 概率 事件 。 小 概率 事件 的 概率 记 为 P， 根 据 P 的 大 小 来 判断 结果 。 如 在 显著 性 假设 检 
验 中 ， 设 定 一 个 显著 性 水 平 a 为 0.05 或 0.01, 当 P>a， 则 接受 Ho; 当 P< c ， 则 拒绝 Ho。 

对 于 样本 容量 大 于 30， 若 要 对 样本 均值 与 总 体 均值 、 两 个 样本 均值 之 间 是 否 存 在 显著 
性 差异 进行 检验 时 ， 可 以 采用 大 样本 Z 检验 方法 。 其 基本 原理 是 计算 两 个 均值 之 间 差 的 Z 
分 数 (Z-score)， 再 与 理论 Z 值 相 比 较 。 若 Z 分 数 大 于 理论 Z 值 ， 判 定 两 个 均值 之 间 的 差异 
是 显著 的 ， 和 否则 是 不 显著 的 。Z 检验 的 一 般 步 又 是 要 先 假 设 Ho，Ho 的 内 容 为 两 个 均值 无 显 
著 差 异 。 再 计算 统计 量 Z 分 数 ， 对 于 不 同类 型 的 问题 选用 不 同 的 统计 量 计算 方法 。 如 果 要 
检验 两 个 随机 样本 均值 的 差异 性 ， 经 典 计算 为 

芭 束 | 
VG /n+v,/n,) 
其 中 : Z 为 显著 性 分 数 (Significance Score); 马 和 总 为 两 个 独立 样本 的 样本 均值 ; m 和 了 
为 两 个 样本 均值 的 方差 值 ，n, 和 ,为 两 个 样本 的 大 小 ， 即 实例 数据 的 个 数 。 

最 后 比较 计算 Z 值 与 理论 Z 值 ， 进 行 结论 推断 。 当 Z 值 大 于 等 于 1.96 时 (& 0.05)， 
推断 两 个 均值 之 间 存在 显著 差异 ， 当 Z 值 小 于 1.96 时 (w > 0.05)， 两 个 均值 之 间 不 存在 显 
著 差 异 。 即 在 两 个 样本 独立 且 大 小 相等 ， 均 值 都 是 正 态 分 布 的 ， 样 本 均值 之 间 差 值 的 分 布 
也 是 正 态 分 布 的 前 提 下 ，95% 地 确信 两 个 均值 之 间 的 差异 不 是 偶然 出 现 的 Z 值 应 大 于 等 于 
1.96。 若 Z 值 小 于 1.96， 则 说 明 ， 两 个 均值 之 间 的 差异 是 偶然 出 现 的 小 概率 事件 ， 两 个 均 
值 之 间 没 有 显著 差异 。 

95% 的 置信 度 仍 然 会 存在 发 生 错误 的 机 会 。 假 设 检验 可 能 发 生 的 错误 有 两 类 。 当 正确 
的 零 假设 被 拒绝 时 ， 就 发 生 第 一 类 错误 (Type 1 Error); 当 错 误 的 零 假 设 被 接受 时 ， 就 发 生 
第 二 类 错误 (Type 2 Error)。 零 假设 的 混淆 矩阵 如 表 5.3 所 示 。 
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表 5.3 零 假 设 的 混淆 矩阵 


计算 拒绝 
正确 的 零 假设 第 一 类 错误 
错误 的 零 假设 正确 的 拒绝 


在 下 面 的 有 指导 学 习 模型 的 评估 中 ， 可 以 用 假设 检验 和 Z 检验 技术 来 计算 检验 集 错误 
率 的 置信 区 间 ， 比 较 两 个 或 更 多 数据 挖掘 模型 的 分 类 错误 率 ， 以 及 确定 哪些 数值 属性 对 分 
类 或 聚 类 艇 的 贡献 最 大 。 

应 用 这 些 方法 的 前 提 是 每 个 均值 是 用 一 个 独立 的 样本 集 计算 出 来 的 。 在 数据 挖掘 中 ， 
一 般 只 有 一 个 检验 集 ， 所 以 在 实际 应 用 中 ， 需 要 对 以 上 方法 进行 稍微 的 改进 。 


3. 有 指导 学 习 和 无 指导 聚 类 技术 互 为 评估 


有 指导 学 习 技术 和 无 指导 聚 类 技术 互 为 补充 ， 有 指导 学 习 模 型 能 够 分 类 和 预测 具有 定 
义 明确 的 分 类 ， 能 够 弥补 无 指导 聚 类 没有 明确 目标 和 缺乏 对 聚 类 结果 进行 解释 的 局 限 ; 反 
之 ， 无 指导 的 聚 类 技术 利用 某 种 相似 度 度量 方法 对 实例 进行 自然 聚 类 ， 能 够 从 中 发 现 类 的 
自然 属性 ， 对 于 有 指导 学 习 前 的 属性 和 实例 选择 有 所 帮助 。 

所 以 可 以 使 用 每 种 技术 去 评估 对 方 或 作为 评估 对 方 的 方法 补充 。 


5.2 评估 有 指导 学 习 模型 


有 指导 的 学 习 模 型 的 作用 是 进行 分 类 、 估 计 和 预测 的 。 在 实际 应 用 中 ， 对 模型 的 期 望 
当然 是 持续 的 、 稳 定 的 高 预测 准确 度 。 比 如 ， 评 估 信 用 或 抵押 风险 ， 接 受 或 拒绝 一 个 信用 
卡 申 请 ， 接 受 或 拒绝 一 个 房屋 抵押 贷款 ， 又 比如 评估 深造 还 是 参加 工作 ， 选 择 出 国 还 是 留 
在 国内 等 。 这 些 实际 问题 都 需要 一 个 强调 高 分 类 正确 率 的 模型 。 


5.2.1 评估 分 类 类 型 输出 模型 


以 上 问题 的 输出 都 是 分 类 类 型 ， 且 输出 属性 为 二 元 取 值 ， 此 类 问题 被 称 为 双 类 
(Two-Class) 问 题 ， 即 取 值 为 “是 ”与 “ 否 ”、“ 真 ”与 “ 假 ”、“ 接 受 ” 与 “拒绝 ”。 此 
类 问题 的 有 指导 模型 可 以 用 使 用 检验 集 分 类 正确 率 和 双 类 混淆 矩阵 来 分 析 其 性 能 。 

表 5.4 的 混淆 矩阵 表示 双 类 问题 的 模型 混淆 矩阵 , 图 5.4 给 出 了 使 用 信用 卡 筛选 数据 集 
的 前 150 个 实例 作为 训练 集 ， 后 150 个 实例 作为 检验 集 ， 应 用 Weka 的 J48 建立 的 分 类 模 
型 的 输出 结果 ， 从 中 可 以 看 到 模型 的 检验 集 分 类 正确 率 为 88.67%， 错 误 率 为 11.33%， 其 
中 有 0 个 顾客 的 申请 被 错误 地 拒绝 ，17 个 顾客 的 申请 被 错误 地 接受 了 。 


表 5.4 双 类 问题 的 混淆 和 矩阵 


计算 拒绝 
接受 错误 折 绝 


拒绝 正确 看 绝 
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57.4419 § 
63.5138 § 
150 
=== Detailed Accuracy By Class === 
TP Bare FPRate Precision Recall F-Measure ROC Area Class 
1 0.739 0 
0.261 0 1 0.261 0.414 0.904 
Weighted Avg. 0.887 0.626 0 


图 5.4 信用 卡 筛选 数据 集 的 模型 结果 


若 为 该 信用 卡 筛 选 问题 建立 了 另 一 个 有 指导 学 习 模 型 ， 其 检验 集 错误 率 与 第 一 个 模型 
相同 ， 都 为 11.33%,， 但 混淆 矩阵 如 表 5.5 所 示 。 该 矩阵 显示 出 错误 地 拒绝 了 17 个 不 应 拒绝 
的 顾客 申请 ， 而 错误 接受 的 申请 为 0。 那 么 ， 现 在 的 问题 是 哪 种 模型 更 好 呢 ? 此 时 ， 在 模 
型 分 类 正确 率 相同 的 情况 下 ， 需 要 回答 另 一 个 问题 ， 即 : 将 信用 卡 欠 费 或 不 安全 所 带 来 的 
损失 与 拒绝 拥有 良好 信用 的 申请 者 所 带 来 的 潜在 损失 相 比 较 ， 哪 个 更 容易 接受 。 假 设 为 保 
证 信用 卡 的 安全 ,宁可 损失 一 些 收益 ,也 不 能 承担 接受 了 不 应 该 接受 的 申请 所 带 来 的 风险 ， 
则 应 选择 第 二 个 模型 ， 因 为 表 5.5 的 混淆 矩阵 表明 ， 这 个 模型 最 不 可 能 将 信用 卡 错误 地 提 
供给 一 个 可 能 欠 费 或 不 安全 的 顾客 。 反 之 ， 应 该 选择 第 一 个 模型 。 


表 5.5 ”错误 率 同 为 11.3% 的 另 一 个 信用 卡 筛选 模型 的 混淆 矩阵 


通过 上 例 可 以 看 到 , 尽管 检验 集 错误 率 对 模型 评估 是 有 用 的 ,但 还 应 该 考虑 其 他 因素 ， 
如 错误 地 接受 和 错误 地 拒绝 所 带 来 的 代价 ， 即 还 需要 评估 犯 第 一 类 错误 和 第 二 类 错误 所 带 
来 的 损失 。 可 以 为 两 类 错误 分 别 指定 一 个 权重 ， 将 一 个 大 的 权重 指定 给 某 类 错误 ， 代 表 着 
对 这 类 错误 是 不 能 容忍 的 相反， 将 一 个 较 小 的 权重 指定 给 某 类 错误 ， 则 表示 这 类 错误 相 
比 另 一 类 错误 更 能 接受 。 例 如 ， 为 甄别 信用 卡 盗用 建立 一 个 模型 ， 模 型 的 输出 结果 是 盗用 
和 没有 盗用 。 通 常 应 该 给 第 一 类 错误 指定 较 大 的 权重 ， 表 示 对 信用 卡 被 盗用 了 而 未 被 甄 昂 
出 来 的 情况 不 能 容忍 ;给 第 二 类 错误 指定 一 个 较 小 的 权重 ， 表 示 信 用 卡 未 被 盗用 而 被 误 判 
的 情况 可 以 接受 。 


5.2.2 评估 数值 型 输出 模型 


具有 数值 型 输出 的 有 指导 学 习 模 型 不 能 直接 将 实例 分 类 到 几 个 可 能 的 输出 类 中 去 ， 分 
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类 正确 率 的 概念 与 分 类 类 型 输出 模型 是 不 同 的 , 而 且 混 淆 矩阵 也 不 能 评估 数值 型 输出 模型 。 

目前 ， 最 常用 的 数值 型 输出 的 准确 率 度量 方法 是 使 用 平均 绝对 误差 、 均 方 误差 和 均 方 
根 误差 三 个 度量 指标 。 

检验 集 的 平均 绝对 误差 (Mean Absolute Error, MAE) 是 计算 输出 值 和 实际 输出 值 之 间 差 
的 平均 绝对 值 ， 其 计算 公式 如 式 (5.6) 所 示 。 均 方 误差 (Mean Squared Error，MSE) 是 计算 输 
出 值 和 实际 输出 值 之 间 差 的 平均 平方 值 , 其 计算 公式 如 式 5.7 所 示 。 均 方 根 误差 (Root Mean 
Squared Error，RMS) 是 均 方 误差 的 平方 根 。 很 显然 ， 每 个 度量 指标 值 最 小 代表 了 最 佳 的 检 
验 集 准 确 率 。 


va -lal elt el 
其 中 : ai 为 第 i 个 实例 的 实际 输出 值 ，c; 为 第 i 个 实例 的 计算 输出 值 。MAE 的 优点 是 较 少 
受 实际 输出 值 和 计算 输出 值 之 间 大 的 偏差 的 影响 ， 并 且 保 持 了 误差 值 的 维 数 。 
MSE- 他 0 (LO Ft Fd 
n 

RMS 通过 对 MSE 开平 方 ， 将 MSE 的 维 数 降低 到 实际 误差 估计 的 维 数 。RMS 通常 用 
在 前 馈 神 经 网 络 检验 集 的 准确 率 度量 中 。 在 第 6 章 的 反 向 传播 神经 网 络 模 型 中 ， 将 其 作为 
网 络 收敛 的 度量 指标 。 

【 例 5.2】 根据 例 6.6 实验 结果 中 的 计算 输出 值 和 实际 输出 值 ， 使 用 式 (5.6)、 式 (5.7) 
计算 MAE 和 RMS 值 ， 与 Weka 的 输出 进行 比较 。 

通过 图 5.5 所 示 的 例 6.6 模型 的 输出 结果 可 以 看 到 ， 有 4 个 检验 集 实例 ,其 计算 输出 和 
实际 输出 值 ， 利 用 式 (5.6) 和 式 (5.7) 计 算 MAE 和 RMS 值 如 下 : 


(5.6) 


(5.7) 


0.0—0.408|+|1.0—0.9|+h.0—0.9|+|0.0—0. 
| |+| |+|L0-0.9|+|0.0 09|_1508 0377 
4 4 
2 2 2 2 
RMS_ | .0-0.408) +(00-09) _ 0 490] 


通过 图 5.5 与 Weka 计算 得 出 的 MAE 和 RMS 值 相 比较 ， 两 次 计算 结果 一 致 。 


Classifier output 
Tize taken to build model: 16.67 seconds 
~ Predictions on training ser = 一 


inst#, actual, predicted, error 


0.4 
-0.1 
-0.1 

0.3 


5.5 例 6.6 模型 的 输出 结果 
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5.2.3 ”计算 检验 集 置信 区 间 


分 类 器 错误 率 (Classifier Error Rate) 是 有 指导 的 模型 的 性 能 最 常用 的 度量 工具 ， 它 能 够 
代表 模型 未 来 可 能 具有 的 性 能 ， 那 么 有 多 大 把 握 认为 这 个 错误 率 是 模型 实际 性 能 的 正确 度 
量 呢 ?错误 率 的 置信 区 间 能 够 回答 这 个 问题 。 基本 原理 是 将 分 类 器 错误 率 看 作 样 本 均值 ( 当 
检验 集 足 够 大 时 , 则 作为 比率 的 错误 率 可 以 被 表示 为 均值 ), 计算 与 错误 率 相关 的 标准 误差 ， 
根据 标准 误差 和 错误 率 ， 计 算 w =0.05(95%0) 的 置信 区 间 的 上 下 限 。 基 本 过 程 如 下 。 

(1) 设 检验 集 样本 大 小 为 nm， 检验 集 错误 率 为 下 。 

(2) 计算 样本 方差 : Variance(E)= E(I- 巨 ) 。 

(3) 根据 式 (5.4)， 计 算 标准 误差 SE。 

(4) 计算 置信 水 平 we =0.05(95%) 的 置信 区 间 的 上 下 限 为 Et2(SE)。 

【 例 5.3】 求 信用 卡 筛选 模型 分 类 错误 率 的 置信 区 间 。 

从 图 5.4 中 可 以 看 到 模型 的 分 类 错误 率 为 11.33%， 检 验 集 样本 大 小 为 150。 计 算 样本 
方差 为 : Variance(0.1133)=0.1133 *(1-0.1133)= 0.1005。 

对 于 有 150 个 实例 的 检验 集 ， 标 准 误差 为 

SE = V(0.1005/150) = 0.0259 

则 在 w =0.05 置信 水 平 下 ， 即 95% 地 确信 实际 的 检验 集 错误 率 在 11.33% 的 上 下 两 个 标 
准 误差 之 间 , 即 实际 检验 集 错 误 率 在 6.15% 到 16.51% 的 区 间 内 , 则 检验 集 的 正确 率 在 83.49% 
到 93.85% 之 间 。 

现在 如 果 增 加 检验 集 实例 的 个 数 ， 如 从 150 增加 到 1500 个 ， 则 错误 率 的 标准 误差 值 为 

SE = V(0.1005/1500) = 0.0082 

错误 率 的 置信 区 间 大 小 为 9.69% 到 12.97%, 则 可 以 得 到 检验 集 正 确 率 范围 在 87.03% 到 
90.31% 之 间 。 检 验 集 的 大 小 对 置信 区 间 的 大 小 有 很 大 的 影响 。 检 验 集 越 大 ， 检 验 集 标准 误 
差 越 小 ， 当 检验 集 大 小 趋 于 无 穷 大 ， 则 标准 误差 趋向 于 0。 所 以 尽 可 能 提供 较 大 检验 集 ， 
能 够 尽 可 能 减少 标准 误差 。 

注意 : 

(1) 随机 选择 检验 集 样本 。 

(2) 检验 集 和 训练 集 为 互 不 相交 的 数据 集 。 

(3) 尽 可 能 使 每 个 类 的 实例 在 训练 集合 中 的 分 布 与 它们 在 整个 数据 集中 的 分 布 保持 


一 致 。 
如 果 无 法 得 到 足够 的 检验 集 数据 ， 可 以 应 用 第 2 章 提 到 的 交叉 验证 (Cross Validatiom) 
技术 。 将 原始 数据 集中 所 有 数据 分 割 为 n( 多 数 情况 下 n 的 取 值 为 10) 个 大 小 固定 的 单元 ， 
其 中 n-1 个 单元 作为 训练 集 ， 第 n 个 单元 作为 检验 集 。 重 复 这 个 过 程 直 到 每 个 单元 都 被 当 
作 检 验 数据 使 用 过 了 。 用 这 n 次 实验 的 检验 集 平均 正确 率 作为 模型 的 检验 集 正确 率 。 交 叉 
验证 有 助 于 确保 训练 集 和 检验 集 内 的 类 的 分 布 是 均匀 的 。 

除了 第 2 章 中 提 到 的 方法 ， 自 举 法 (Bootstrapping) 也 是 交叉 验证 中 的 一 种 方法 。 自 举 法 
允许 训练 集 选 取 过 程 中 多 次 选择 相同 的 训练 实例 。 每 个 选中 的 训练 实例 用 于 训练 后 可 以 放 
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到 数据 池 中 。 在 数学 上 能 够 证 明 ， 如 果 用 自 举 法 对 一 个 包含 了 n 个 实例 的 数据 集 进行 n 
次 采样 ， 训 练 集 将 包含 的 实例 数 大 约 是 n 的 23， 剩 余 的 L3 实例 用 于 检验 。 


5.2.4 无 指导 聚 类 技术 的 评估 作用 


有 指导 学 习 和 无 指导 聚 类 可 以 对 对 方 进行 评估 ， 即 可 以 使 用 无 指导 聚 类 技术 评估 有 指 
导 学 习 模型 ， 反 之 亦 然 。 

无 指导 聚 类 技术 评估 有 指导 学 习 模 型 的 步骤 如 下 。 

(1) 将 有 指导 建 模 使 用 的 训练 集 作为 无 指导 聚 类 的 数据 集 ， 可 以 删除 有 指导 学 习 中 作 
为 输出 的 属性 。 

(2) 度量 聚 类 形成 的 簇 的 质量 。 如 果 簇 质 量 良 好 ， 则 证 明 使 用 这 个 训练 集训 练 的 有 指 
导 模 型 的 质量 良好 。 反 之 ， 可 以 证 明 用 于 有 指导 学 习 的 训练 集 数据 不 是 最 好 的 选择 ， 这 就 
需要 在 有 指导 学 习 训练 之 前 ， 对 训练 集中 的 实例 和 属性 进行 重新 评估 和 选择 。 

使 用 无 指导 聚 类 技术 评估 有 指导 学 习 模型 时 ， 具 有 一 定 的 局 限 性 ， 具 体 如 下 。 

(1) 一 般 的 聚 类 技术 都 需要 进行 多 次 迭代 后 ， 才 可 能 收敛 到 理想 的 效果 ， 但 在 这 之 前 ， 
没有 能 够 得 到 较 好 聚 类 效果 时 ， 就 可 能 会 使 人 对 用 于 有 指导 学 习 的 训练 集 产 生 怀疑 了 。 所 
以 应 用 聚 类 技术 评估 有 指导 学 习 模 型 时 ， 需 要 耐心 和 洞察 力 相 结合 ， 既 要 首先 相信 训练 集 
实例 的 分 类 预测 能 力 ， 能 够 有 耐心 进行 多 次 迭代 ， 尽 可 能 得 到 好 的 收敛 效果 ;又 要 在 实际 
上 已 经 不 可 能 得 到 更 好 收敛 效果 的 情况 下 ， 及 时 发 现 训练 集 数据 的 问题 ， 终 止 评估 过 程 ， 
根据 评估 结果 ， 重 新 评估 和 选择 训练 集 数据 。 

(2) 使 用 无 指导 聚 类 技术 评估 有 指导 学 习 模 型 时 ， 仅 仅 使 用 了 有 指导 学 习 中 使 用 的 训 
练 集 ， 评 估 结 果 证 明 有 指导 学 习 模型 性 能 良好 也 只 能 是 在 训练 集 上 ， 在 模型 分 类 和 预测 未 
知 实例 的 性 能 上 无 法 评估 ， 所 以 在 检验 集 实 例 上 的 有 指导 学 习 模 型 的 性 能 评估 无 法 实现 。 

鉴于 无 指导 聚 类 技术 评估 有 指导 学 习 模型 的 上 述 局 限 性 ， 该 技术 只 能 作为 其 他 评估 方 
法 的 补充 。 当 然 ， 在 有 指导 学 习 模型 中 分 类 类 别 不 多 的 情况 下 ， 检 查 有 指导 学 习 模 型 的 数 
据 选 择 方面 的 失败 因素 ， 无 指导 聚 类 技术 还 是 可 以 发 挥 重 要 作用 。 


5.3 ”比较 有 指导 学 习 模型 


互 


5.3.1 使 用 Lift 比较 模型 


Lift( 提 升 度 或 提升 指数 ) 度 量 了 一 个 偏差 样本 内 的 类 CG; 的 期 望 集中 度 相 对 于 总 体内 的 

Gi 的 集中 度 的 百分比 的 变化 ， 可 以 使 用 条 件 概 率 来 表示 ， 如 式 (5.8) 所 示 。 
P(C | Sample) 

i (5.8) 
P(C | Population) 
其 中 : Prc | Sample) 是 相对 于 偏差 样本 总 体 的 包含 在 C; 类 中 的 实例 出 现 的 条 件 概率 ; P(C;| 
Population) 是 相对 于 整个 总 体 的 Ci 类 实例 出 现 的 条 件 概率 。 

Lift 可 以 用 来 评估 一 个 有 指导 的 分 类 或 预测 模型 是 否 有 效 ， 式 (5.8) 中 的 比值 可 以 认为 
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是 使 用 了 和 未 运用 这 个 模型 所 得 到 的 概率 值 的 比值 。 

【 例 5.4】 现在 有 一 项 调查 问卷 的 分 发 和 回收 任务 ， 任 务 要 求 问 卷 的 回收 率 为 30%。 
而 通过 以 往 的 经 验 知道 ， 一 般 这 类 问卷 的 回收 率 大 概 为 20% 左 右 。 所 以 需要 采取 措施 提高 
可 收 率 。 目 前 ， 我 们 有 一 些 在 过 去 的 问卷 调查 时 收集 到 的 被 调查 人 的 相关 数据 ， 如 年 龄 、 
性 别 、 职 业 、 个 人 收入 范围 、 受 教育 程度 、 婚 姻 状况 、 兴 趣 爱好 等 ， 可 以 根据 这 些 数 据 建 
立 一 个 预测 模型 ， 通 过 该 模型 ， 期 望 提升 问卷 的 响应 率 ， 完 成 回收 任务 。 

这 是 一 个 典型 的 大 宗 邮 寄 响 应 率 提 升 的 市 场 应 用 案例 。 这 类 应 用 较 少 在 意 检验 集 分 类 
错误 ， 而 更 关注 的 是 能 否 从 巨 量 总 体 中 提取 有 偏差 的 样本 ， 和 希望 这 个 样本 能 够 表现 出 比 一 
般 总 体 具 有 更 高 的 响应 率 。 对 于 为 此 问题 而 设计 的 有 指导 学 习 模型 ， 其 性 能 可 以 使 用 直接 
来 自 于 市 场 的 1iftt 度量 进行 评估 。 

在 例 5.4 中 ， 若 被 调查 人 总 人 数 为 10000 人 ，20% 的 回收 率 表示 10000 人 中 有 2000 人 
可 以 用 表 5.6 的 混淆 矩阵 表示 为 所 有 被 调查 人 发 放 问 卷 的 响应 情况 ， 称 之 

一 般 情 况 或 无 模型 情况 ， 其 lift 值 为 20% /209% = 1.0。 同 时 ， 还 可 以 使 用 表 5.7 所 示 的 混 
tera se te 即 下 发 的 所 有 问卷 全 部 得 到 响应 ， 其 lift 值 为 100% / 20% = 
5.0。 而 我 们 的 目的 是 在 两 种 情况 之 间 找到 一 个 模型 ， 能 够 最 大 可 能 地 提升 响应 率 。 

现在 根据 被 调查 人 的 相关 数据 建立 模型 X， 该 模型 能 够 将 这 10000 人 进行 分 类 ， 分 类 
结果 是 响应 调查 和 未 响应 调查 ， 分 类 模型 的 混淆 矩阵 如 表 5.8 所 示 。 

从 模型 X 的 混淆 矩阵 可 以 看 到 ，10000 个 实例 中 ， 被 模型 分 类 为 响应 调查 的 实例 为 
1150+2150=3300， 这 些 实例 是 我 们 应 该 特别 关注 的 应 该 发 放 调查 问卷 的 人 。 

给 模型 判断 出 的 响应 调查 的 3300 人 发 放 调查 问卷 ， 响 应 率 为 1150/3300=34.8%， 大 于 
30% 的 回收 率 ， 达 到 了 回收 率 要 求 ， 完 成 了 的 调查 问卷 的 回收 任务 。 

通过 使 用 模型 ， 提 升 了 响应 率 ，lift 值 34.8%/20% = 1.74， 即 使 用 模型 后 ， 响 应 率 提升 
了 1.74 倍 。 


表 5.6 ”无 模型 的 混淆 矩阵 


计算 响应 


于 
未 响应 


表 5.7 ”理想 模型 的 混淆 矩阵 


理想 模型 计算 不 响应 
响应 0 
未 响应 8000 
模型 X 计算 不 响应 
响应 850 
未 响应 5850 
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图 5.6 给 出 了 问卷 调查 问题 的 图 形 化 表示 。 该 图 被 称 为 ifi 图 (Lift Chart)。 水 平 轴 表 示 
从 总 体 中 抽取 样本 的 百分比 ， 纵 轴 表 示 可 能 的 响应 者 的 个 数 。 该 图 将 模型 的 性 能 显示 为 样 
本 尺寸 函数 。 最 细 直 线 表示 无 模型 ， 即 随机 选择 样本 发 送 调 查 问 卷 10000 份 ， 能 够 从 中 获 
得 的 可 能 的 响应 为 2000 份 。 次 细 的 直线 表示 理想 状态 下 , 发 出 去 的 问卷 都 能 得 到 响应 。 最 
粗 的 直线 表示 在 模型 X 的 帮助 下 ， 期 望 从 模型 分 类 为 响应 的 3300 个 实例 中 ， 获 得 1150 个 
响应 。 这 条 线 表示 了 使 用 模型 后 可 获得 的 响应 率 的 提升 。 分 析 lift 图 可 以 看 到 ， 理 想 的 模 
型 是 使 用 最 小 的 样本 尺寸 能 够 得 到 最 大 提升 的 模型 。 即 lift 线 越 靠 近 左 上 方 部 分 的 理想 模 
型 线 ， 显 示 出 该 模型 的 性 能 越 好 。 
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图 5.6 问卷 调查 问题 的 lit 


5.3.2 ”通过 假设 检验 比较 模型 


通过 假设 检验 来 比较 两 个 用 同样 训练 集 创建 的 有 指导 学 习 模 型 。 零 假设 描述 为 ， 两 个 
使 用 了 相同 训练 集 创建 的 有 指导 学 习 模型 M, 和 Ms， 它们 的 检验 集 错误 率 无 显著 差异 。 将 
同样 的 检验 集 或 两 个 独立 的 检验 集 应 用 于 模型 ， 比 较 两 个 模型 总 的 分 类 正确 率 的 一 般 统 计 
公式 如 下 : 

至 aE (5.9) 
其 中 : E1 为 模型 Mi 的 检验 集 分 类 错误 率 ; EF 为 模型 Mz 的 检验 集 分 类 错误 率 ; 4 为 两 个 模 
型 的 分 类 错误 率 的 平均 值 ， 即 q=( E+E2)/2; ni 和 ns 分 别 为 检验 集 A 和 B 中 的 实例 个 数 
gq(1 9) 是 用 El 和 EE 计算 出 来 的 方差 值 。 

如 果 Z 值 三 1.96， 则 就 有 95% 的 把 握 认为 Mi 和 M2 的 检验 集 性 能 差别 是 显著 的 。 

【 例 5.5】 假设 使 用 打 篮 球 数据 集 进行 有 指导 的 训练 得 到 两 个 分 类 模型 Mi 和 M2。 两 
个 模型 都 使 用 了 数据 集中 的 前 8 个 实例 作为 训练 数据 ， 后 7 个 实例 作为 检验 数据 ， 分 类 错 
误 率 分 别 为 27.14% 和 19.57%。 那 么 ， 两 个 模型 的 检验 集 性 能 是 否 存在 显著 差异 。 

已 知 : =0.2714，E; = 0.1957， 则 g=(0.2714+0.1957)/ 2 = 0.2336， 那 么 方差 gq(1-4)= 
0.2336(1.0-0.2336)= 0.179， 最 后 得 到 
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V0.179x(1/7+1/7) 
因为 Z<1.96， 则 认为 两 个 模型 的 性 能 没有 显著 差异 。 使 用 另外 的 两 个 独立 检验 集 再 次 
进行 检验 ， 来 提高 这 个 结果 的 置信 度 。 

还 可 以 在 使 用 训练 数据 建立 模型 之 后 ， 先 对 模型 进行 比较 ， 选 择 分 类 正确 率 最 高 的 模 
型 ， 再 进行 检验 集 上 的 检验 ， 获 得 模型 对 未 知 实例 预测 的 性 能 。 对 模型 的 比较 可 以 使 用 验 
证 数据 (Validation Data)， 它 是 训练 数据 和 检验 数据 的 补充 ， 可 以 帮助 我 们 从 多 个 用 同样 训 
练 集 建立 的 模型 中 选择 一 个 。 验 证 数据 还 可 以 用 于 优化 有 指导 模型 的 参数 设置 ， 以 获得 最 
高 的 分 类 正确 率 。 


0.3347 


5.4 属性 评估 


前 面 已 经 分 析 过 ， 影 响 模型 性 能 的 一 个 重要 因素 是 数据 ， 包 括 数据 的 质量 ， 以 及 数据 
集 的 属性 和 实例 的 选择 。 可 以 使 用 属性 相关 性 检查 和 散 点 图 找 出 属性 元 余 ， 同 时 ， 可 以 使 
用 假设 检验 找 出 对 分 类 预测 能 力 较 小 的 数值 属性 ， 将 它们 从 训练 集中 删除 ， 以 提高 模型 的 
质量 。 


5.4.1 数值 型 属性 的 元 余 检 查 


相关 系数 (Correlation Coefficient) 度 量 了 两 个 数值 型 属性 之 间 的 线性 相关 程度 ， 对 于 样 
本 用 + 或 p 表示， 对 于 总 体 则 用 希腊 字母 rho 表示。 相关 系数 的 值 介 于 [-1,1] 之 间 。 两 个 属 
性 正 相 关 (Positive Correlation) 是 指 两 个 属性 具有 同时 增加 或 减少 的 特性 ，r 接近 于 1。 如 身 
高 和 体重 就 是 两 个 正 相 关 性 较 强 的 属性 。 两 个 属性 负 相 关 (Negative Correlation) 是 指 一 个 属 
性 增加 而 同时 另 一 个 属性 减少 的 特性 , r 接近 于 -1。 如 年 龄 和 奔跑 速度 就 是 两 个 负 相 关 性 较 
强 的 属性 。 如果 接近 于 0， 则 表示 两 个 属性 不 具有 线性 相关 性 。 对 于 属性 之 间 的 相关 性 的 
判定 ， 除 了 使 用 相关 系数 之 外 ， 还 需要 使 用 显著 性 检验 ， 来 排除 两 个 属性 之 间 的 相关 性 联 
系 偶然 出 现 的 可 能 。 

如 果 两 个 输入 属性 正 向 或 负 向 高 度 相 关 ， 则 只 能 选择 其 中 的 一 个 用 于 数据 挖掘 。 正 确 
的 选择 是 选择 具有 较 大 重要 性 值 的 属性 。 可 以 用 MS Excel 的 CORREL 函数 和 散 点 图 来 检 
查 数值 属性 的 相关 系数 。 


1. 使 用 MS Excel 的 CORREL 函数 计算 属性 相关 性 


用 Excel 的 CORREL 函数 计算 iris 数据 集中 的 Petal_width( 花 办 宽度 ) 和 Petal length( 花 
办 长 度 )、Petal_width( 花 办 宽度 ) 和 Sepal_ width( 花 苯 宽 度 ) 两 对 属性 之 间 的 分 别 的 相关 度 。 
过 程 如 下 。 

(1) 在 Excel 中 加 载 iris.xls 数据 集 。 

(2) 在 一 个 空白 单元 格 中 输入 = CORREL(B2:B151，C2:C151)， 单 击 “ 确 定 ” 按 钮 。 

(3) 在 另 一 个 空白 单元 格 中 输入 = CORREL(B2:B151，D2:D151)， 单 击 “ 确 定 ” 按 钮 。 

在 两 个 单元 格 中 分 别 显示 了 0.9627 和 -0.3661。 前 一 个 值 接近 于 1， 说 明 花 辩 宽 度 和 长 
度 之 间 有 较 强 的 正 相 关 性 ;而 后 一 个 值 说 明 花 辩 宽度 和 花 莹 宽度 两 个 属性 之 间 具 有 一 定 的 
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但 较 小 的 负 相 关 性 。 
2. 使 用 散 点 图 检查 属性 相关 性 
相关 系数 只 能 表示 两 个 属性 之 间 的 线性 相关 程度 。 两 个 具有 较 小 > 值 的 属性 仍 可 能 
在 曲线 (Curvilinear) 的 关系 。 通 过 散 点 图 (Scatterplot Diagram) 可 以 检查 两 个 属性 之 间 是 否 存 
在 曲线 相关 ， 当 然 也 能 显示 两 个 属性 间 的 线性 相关 性 。 


图 5.7 显示 了 两 个 具有 正 相关 性 的 属性 的 散 点 图 ， 图 5.8 显示 了 两 个 具有 负 相 关 性 的 
属性 的 散 点 图 ， 图 5.9 显示 的 是 两 个 没有 线性 相关 性 ， 但 具有 曲线 关系 的 属性 的 散 点 图 。 


图 5.7 正 相关 (r 接 近 于 1) 图 5.8 ” 负 相 关 (r 接 近 于 -1) 
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图 5.9 非 线性 相关 (r 接 近 于 0) 但 曲线 相关 


下 面 让 我 们 用 MS Excel 为 iris 数据 集中 的 Petal_width( 花 辨 宽度) 和 Petal_ length( 花 办 
长 度 )、Petal_width( 花 办 宽度 ) 和 Sepal width( 花 苯 宽 度 ) 两 对 属性 创建 散 点 图 。 过 程 如 下 。 

(1) 在 Excel 中 加 载 iris.xls 数据 集 。 

(2) 选中 Petal width 和 Petal length 列 ， 打 开 “ 插 入 ”菜单 ， 单 击 “ 散 点 图 ”按钮 ， 插 
入 以 这 两 个 属性 为 x 坐标 和 y 坐标 的 散 点 图 。 

(3) 选中 Petal_width 和 Sepal_ width 列 ， 打 开 “ 插 入 ”菜单 ， 单 击 “ 散 点 图 ”按钮 ， 插 
入 以 这 两 个 属性 为 x 坐标 和 y 坐标 的 另 一 个 散 点 图 。 

图 5.10 和 图 5.11 显示 了 生成 的 两 个 散 点 图 。 根据 相关 系数 和 散 点 图 可 以 判断 
Petal_width 和 Petal length 两 个 属性 之 间 具 有 较 强 的 正 相关 性 ，Petal_width 和 Sepal_width 
两 个 属性 之 间 没 有 相关 性 。 

通过 相关 系数 计算 和 散 点 图 得 到 Petal width 和 Petal length 两 个 属性 之 间 具 有 较 强 正 
相关 性 的 结论 ， 但 是 这 两 个 属性 之 间 的 联系 是 偶然 的 吗 ? 还 需要 通过 属性 联系 的 显著 性 检 
验 进 行进 一 步 的 确认 。 
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5.4.2 数值 属性 显著 性 的 假设 检验 


使 用 假设 检验 来 确定 属性 的 显著 性 分 数 ， 过 程 如 下 。 
(1) 设 数值 型 属性 A 具有 1n 个 类 Cu，Cz，…，Cw 各 类 中 该 属性 的 均值 为 闷 ， 筷 ，…， 


于 
(2) 对 每 一 对 类 CC 和 CG， 使 用 式 (5.10) 计 算 显 著 性 分 数 Z。 
汞 二 芭 - 马 | 
VG /nm +v, /n,) 

其 中 天 是 类 Ci 的 均值 ， 马 是 类 Gj 的 均值 ; vi 是 属性 A 的 Ci 的 方差 ; yj 是 G 的 方差 ，n; 
是 类 Ci 中 的 实例 数 ，nj 是 类 G 中 的 实例 数 。 

(3) 如 果 奴 的 任意 一 个 值 宇 1.96， 则 该 属性 是 重要 的 。 即 对 于 属性 A， 在 任何 一 对 类 
的 比较 中 都 表现 出 显著 的 差异 ， 则 该 属性 应 被 认为 对 于 分 类 是 重要 的 。 

【 例 5.6】 检查 iris 数据 集中 各 属性 的 显著 性 分 数 ， 比 较 其 重要 性 。 

表 5.9 中 显示 了 iris 用 式 (5.10) 计 算得 到 的 各 属性 的 显著 性 分 数 ， 从 中 可 以 看 到 所 有 值 
都 大 于 1.96， 所 以 iris 数据 集中 的 所 有 属性 对 于 分 类 意 尾 花 都 是 重要 的 。 


表 5.9 iris 数据 集 各 属性 的 显著 性 分 数 


(5.10) 


均值 
Species_name Petal_width Petal_leng Sepal_width Sepal length 
Setosa 0.246 
Versicolor 1.326 
Verginica 2.026 3.552 2.974 6.588 
方差 
Species_name Petal_width Petal_length Sepal_width Sepal_length 
Setosa 0.011106 0.030159 0.14369 0.124249 


0.266433 
0.404343 
10.51 


0.220816 
0.304588 
34.03 


0.098469 
0.104004 
6.37 


Versicolor 0.039106 
Verginica 0.075433 
30.50 
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5.5 ”评估 无 指导 聚 类 模型 


有 指导 的 学 习 模型 有 明确 的 输入 和 输出 ， 其 建立 的 目的 是 用 于 分 类 和 预测 ， 模 型 的 应 
用 目标 明确 。 而 无 指导 的 聚 类 模型 则 不 同 ， 通 常 在 聚 类 之 前 目标 并 不 明确 ， 所 以 也 造成 了 
对 无 指导 聚 类 模型 的 性 能 评估 比 有 指导 模型 更 为 困难 。 

一 般 地 ， 因 为 聚 类 的 结果 是 形成 一 些 依据 相似 度 而 聚集 的 实例 徐 ， 所 以 对 于 这 些 艇 的 
质量 的 度量 是 评估 无 指导 聚 类 模型 性 能 的 最 一 般 考 虑 。 度 量 簇 的 质量 常用 的 方法 是 计算 每 
个 簇 中 的 实例 与 其 徐 中 心 之 间 的 误差 平方 和 。 误 差 平 方 和 越 小 ， 艇 的 质量 就 越 高 。 

第 二 种 评估 无 指导 聚 类 的 方法 是 使 用 有 指导 学 习 技 术 。 因 为 有 指导 学 习 的 输出 是 定义 
明确 的 类 ， 可 以 利用 这 点 来 解释 和 评估 不 能 明确 表达 聚 类 结果 的 无 指导 模型 。 步 骤 如 下 。 

(1) 建立 无 指导 聚 类 模型 之 后 ， 将 形成 的 每 个 簇 作为 一 个 类 。 如 通过 无 指导 聚 类 形成 
了 3 个 徐 ， 则 将 它们 作为 3 个 类 。 

(2) 从 这 每 个 类 中 随机 选择 1 个 实例 样本 集 ， 随 机 选取 的 目的 是 保证 每 个 类 表示 在 随 
机 样本 中 的 比率 与 表示 在 整个 数据 集中 的 比率 相同 。 选 取 的 所 有 实例 数 最 好 占 整 个 数 
据 集 的 2/3 。 

(3) 将 随机 选取 的 实例 作为 训练 数据 ， 创 建 以 这 些 类 为 输出 属性 的 有 指导 学 习 模型 ， 
并 使 用 剩余 的 实例 作为 检验 集 实例 检验 有 指导 模型 的 分 类 正确 率 。 

(4) 观察 这 样 建立 的 有 指导 模型 的 分 类 正确 率 ， 若 分 类 性 能 较 好 说 明 无 指导 聚 类 模型 
所 形成 的 艇 的 定义 良好 ;， 若 分 类 正确 率 较 低 ， 说 明 聚 类 所 形成 的 簇 没 有 明确 的 定义 。 
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本 章 内 容 概 述 如 图 5.12 所 示 。 
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在 建立 有 指导 的 学 习 模型 和 无 指导 的 聚 类 模型 的 过 程 中 ， 数 据 、 参 数 、 技 术 都 会 影响 
模型 的 性 能 ， 在 评估 模型 的 性 能 时 ， 若 能 找 出 模型 不 理想 的 可 能 因素 ， 对 这 些 内 容 也 应 该 
进行 评估 和 重新 选择 。 

评估 模型 可 使 用 多 种 技术 ， 分 类 正确 率 或 错误 率 和 混淆 矩阵 是 评估 有 指导 模型 性 能 角 
一 般 方法 。 借 助 一 些 统计 量 和 统计 方法 ， 包 括 均值 、 方 差 、 标 准 差 、 标 准 误差 、 平 均 绝对 
误差 、 均 方 误差 ， 均 方 根 误差 以 及 正 态 分布 、 假 设 检验 、Z- 检 验 、 置 信 区 间 等 概念 和 方法 ， 
进行 模型 性 能 评估 。 

其 中 利用 从 大 小 相等 的 独立 样本 集中 取得 的 样本 均值 是 正 态 分 布 的 这 一 事实 ， 可 以 将 
检验 集 错误 率 看 作 样 本 均值 ， 应 用 正 态 分 布 的 属性 计算 错误 率 置信 区 间 ， 对 将 错误 率 作为 
评估 有 指导 学 习 模型 性 能 的 方法 作 进 一 步 的 完善 。 

比较 有 指导 学 习 模型 除了 可 以 使 用 假设 检验 检查 检验 集 错误 率 之 外 ， 对 于 为 了 追求 响 
应 率 而 设计 建立 的 模型 的 评估 ， 可 以 通过 lift 指标 来 度量 。 

可 以 通过 计算 相关 系数 和 查看 散 点 图 来 确定 两 个 数值 属性 之 间 是 否 存在 线性 关系 、 非 
线性 关系 或 曲线 关系 。 存 在 较 强 的 线性 相关 性 的 两 个 属性 ， 其 中 之 一 为 元 余 属性 ， 应 该 在 
建 模 前 去 掉 该 属性 。 还 可 以 通过 显著 性 假设 检验 检查 属性 的 显著 性 分 数 ， 从 而 找 出 对 分 类 
具有 较 低 预测 性 的 属性 ， 建 模 前 删除 这 些 属性 以 提高 模型 质量 和 数据 挖掘 效率 。 

使 用 筷 中 的 实例 与 该 秘 中 心 的 误差 平方 和 来 度量 簇 的 聚 类 质量 ， 这 是 最 一 般 的 无 指导 
聚 类 模型 性 能 评估 方法 。 另 外 ， 可 以 借助 有 指导 学 习 技术 的 优势 ， 来 评估 无 指导 聚 类 的 
质量 。 


习 是 


1. 在 UCI 上 下 载 一 个 用 于 分 类 的 数据 集 ， 使 用 C4.5 算法 ， 设 置 不 同 参 数 建立 两 个 有 
指导 学 习 模 型 ， 记 录 检 验 集 错误 率 。 使 用 式 (5.9) 确 定 两 个 模型 的 检验 集 错误 率 是 否 存 在 显 
著 差 异 。 

2. 使 用 心脏 病人 数据 集 (CardiologyNumerical) 的 前 150 个 实例 作为 训练 集 实 例 , 剩 下 的 
153 个 实例 作为 检验 集 实 例 ， 选 择 两 种 或 多 种 数据 挖 据 技 术 建 立 有 指导 学 习 模 型 ， 利 用 混 
清和 矩阵 和 检验 集 错误 率 评估 所 建 模型 ， 并 使 用 假设 检验 确定 这 些 模型 之 间 是 否 存在 显著 性 
差异 。 

3. 用 MS Excel 的 CORREL 函数 和 散 点 图 确定 心脏 病人 数据 集 (CardiologyNumerical) 
的 maximum heart rate 和 peak 属性 之 间 的 相关 性 。 

4. 设计 调查 问卷 ， 收 集 打 篮 球 数据 集 的 实例 ， 使 用 式 ($.10) 计 算数 据 集中 的 属性 的 显 
著 性 分 数 ， 确 定 是 否 可 以 删除 其 中 显著 性 分 数 较 小 的 属性 。 

5. 面向 某 个 主题 设计 调查 问卷 ， 开 展 一 次 问卷 调查 活动 ， 收 集 被 调查 者 的 基本 数据 。 
为 提升 回收 率 建立 有 指导 学 习 模型 ， 查 看 其 混淆 矩阵 ， 计 算 lift 值 ， 并 画 出 lift 图 ， 与 无 模 
型 和 理想 模型 进行 比较 。 
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第 6 章 神经 网 络 技术 


本 章 要 点 提示 


神经 网 络 是 一 种 模仿 生物 神经 网 络 的 结构 和 功能 的 数学 模型 。 作 为 一 种 非 线 性 、 具 有 
统计 特性 的 数据 挖 气 技 术 ， 因 其 对 于 连续 数值 类 型 数据 输出 的 预测 能 力 ， 在 商业 领域 、 自 
然 科 学 和 社会 科学 领域 得 到 持续 增长 的 应 用 。 

本 章 6.1 节 介 绍 了 神经 网 络 的 基本 概念 和 结构 模型 ， 并 讨论 了 神经 网 络 的 输入 和 输出 
数据 的 要 求 ; 6.2 节 介 绍 了 神经 网 络 的 反 向 传播 学 习 和 自 组 织 学 习 方 法 ,详细 描述 了 反 向 传 
播 学 习 算法 和 自 组 织 学 习 方法 的 一 次 迭代 过 程 ， 并 通过 两 个 实验 ， 介 绍 了 使 用 Weka 软件 
实现 BP 前 馈 神经 网 络 模型 的 过 程 ; 6.3 节 分 析 了 神经 网 络 技术 的 优势 和 缺点 。 


6.1 神经 网 络 概述 


神经 网 络 (Neural Networks，NN)， 是 人 工 神经 网 络 (Artificial Neural Networks，ANN) 
的 简称 。 神 经 网 络 是 一 种 具有 统计 特性 的 数学 模型 ， 它 的 创建 思想 源 于 人 类 神经 网 络 的 结 
构 、 功 能 和 运行 过 程 。 

在 神经 网 络 中 ， 知 识 被 表示 为 处 理 单元 的 集合 ， 这 些 处 理 单元 节点 通常 称 为 神经 元 
(Neurodes)。 神 经 网 络 由 多 个 处 理 单元 节点 及 其 之 间 的 相互 连接 构成 , 就 相当 于 表达 了 生物 
脑 神经 之 间 的 关系 。 每 个 节点 与 邻近 层 节点 之 间 具 有 加 权 连 接 ， 该 连接 有 个 生物 学 名 称 ， 
称 为 突 触 (Synapse)。 连 接 间 具有 权重 (Weight) 值 ,该 权 值 相当 于 神经 网 络 的 记忆 。 每 个 节点 
的 输出 由 一 个 称 为 激励 函数 (Activation Function) 的 输出 函数 计算 所 得 ， 整 个 网 络 的 输出 则 
根据 网 络 的 不 同 连接 方式 、 权 重 值 和 激励 函数 而 得 到 不 同 的 结果 ， 是 数据 在 神经 网 络 中 传 
输 、 分 析 、 权 衡 而 形成 的 结果 。 

神经 网 络 需 要 通过 一 种 具有 统计 特性 的 学 习 方 法 (Leaming Method) 加 以 训练 , 使 之 表达 
某 种 算法 、 函 数 或 逻辑 策略 ， 从 而 建立 数学 模型 。 这 种 学 习 方法 可 以 是 有 指导 的 或 无 指导 
的 。 当 一 组 输入 实例 重复 经 过 神经 网 络 时 ， 通 过 修改 网 络 连 接 权 值 来 完成 学 习 训 练 。 


6.1.1 神经 网 络 模型 


一 个 人 工 神经 网 络 可 以 是 单 层 和 多 层 结构 。 其 中 单 层 神经 网 络 是 最 基本 的 神经 网 络 形 
式 ， 由 一 个 输入 层 (Input Layer) 和 一 个 输出 层 (Output Layer) 组 成 。 如 图 6.1 所 示 ， 常 见 的 多 
层 神经 网 络 结构 由 三 个 部 分 构成 :一 个 输入 层 、 一 个 输出 层 、 一 个 或 多 个 隐藏 层 ((Hidden 
Layer， 简 称 隐 层 )。 输 入 数据 称 为 输入 向 量 ， 输 入 层 节点 数 由 参加 训练 实例 的 输入 属性 个 
数 决 定 。 输 出 数据 称 为 输出 向 量 ， 输 出 层 节点 数 根据 问题 和 应 用 的 不 同 ， 而 可 能 有 一 个 或 
多 个 节点 。 在 输入 和 输出 层 之 间 的 隐 层 个 数 和 每 个 隐 层 内 的 节点 个 数 一 般 可 由 用 户 指定 ， 
一 般 的 ， 隐 层 总 数 通常 被 限定 为 两 个 ， 而 一 般 选 择 输入 节点 的 1.2 一 1.5 倍 的 节点 数 作为 隐 


层 节点 数 。 

每 一 层 的 节点 都 有 输入 和 输出 。 假 设 第 i 层 被 记 作 Layer(D)， 由 Ni( 第 i 层 上 用 个 神 
经 元 节点 ) 个 节点 组 成 ， 每 个 Layer(i) 上 的 节点 把 Layer(i-1) 上 节点 的 输出 作为 其 输入 ， 第 i 
层 上 的 某 节点 的 势能 由 每 一 个 权重 与 第 计 1 层 上 节点 输出 的 乘积 和 计算 所 得 ， 将 该 节点 的 
势能 作为 函数 的 输入 ， 计 算 激 励 函数 值 作为 该 节点 的 输出 。 

图 6.1 给 出 了 一 个 全 连接 的 前 馈 神 经 网 络 结构 。 其 中 有 向 线 表 示 每 个 实例 通过 网 络 时 
的 流动 方向 ， 对 于 前 馈 神 经 网 络 ， 数 据 只 会 从 输入 节点 通过 隐 层 节点 (如 果 有 的 话 ) 流 动 到 
达 输 出 节点 ， 没 有 周期 或 者 循环 。 本 章 仅 讨论 前 馈 神 经 网 络 ， 下 述 “ 神 经 网 络 ” 全 部 是 指 
前 馈 神 经 网 络 。 同 时 ， 因 为 相 邻 两 层 上 的 节点 全 部 两 两 连接 ， 所 以 图 6.1 中 的 网 络 是 全 
连接 的 。 

图 6.1 中 的 输入 向 量 为 [0.8.1.0.0.4]， 故 输入 层 节 点 数 为 3 个 ， 指 定 了 1 个 有 3 个 节点 
的 隐 层 ， 一 个 输出 层 节点 。 图 中 的 所 ;、 了 ;等 为 连接 权 值 。 


输入 层 隐 层 输出 层 


6.1 全 连接 前 馈 神 经 网 络 结构 


6.1.2 神经 网 络 的 输入 和 输出 数据 格式 


1. 神经 网 络 输入 格式 


神经 网 络 的 输入 向 量 数 据 必须 是 数值 类 型 ， 且 必须 落 在 [0,1] 闭 区 间 内 。 在 实际 应 用 中 
需要 采取 一 种 方法 将 分 类 类 型 数据 变换 为 [0.1] 区 间 的 数值 类 型 数据 。 

分 类 类 型 数据 变换 为 [0.1] 区 间 的 数值 数据 的 方法 有 多 种 。 以 下 两 种 方法 使 用 较为 简单 
和 普遍 。 

方法 一 : 将 [0.1] 区 间 分 为 大 小 相等 的 间隔 ， 将 间隔 点 上 的 取 值 作为 分 类 类 型 数据 的 数 
值 表示 。 该 方法 简单 ， 且 不 增加 额外 输入 节点 ， 但 该 方法 有 一 个 明显 的 缺陷 ， 因 将 [0,1] 区 
间 分 成 的 间隔 与 0 和 1 有 距离 远近 ， 故 实际 上 , 对 于 本 来 与 0 和 1 无 距离 之 分 的 输入 数据 ， 
被 人 为 地 加 入 了 距离 因素 。 

方法 二 : 对 输入 数据 进行 二 进 制 编码 ， 增 加 输入 节点 ， 用 两 个 或 多 个 输入 节点 表示 一 
个 输入 属性 。 该 方法 解决 了 方法 一 中 的 在 数据 变换 中 人 为 加 入 距离 因素 的 问题 ， 但 是 因 增 
加 了 额外 的 节点 ， 增 加 了 神经 网 络 结构 的 复杂 性 。 

【 例 6.1】 某 投资 公司 的 客户 数据 集中 “账户 类 型 ”属性 为 分 类 类 型 属性 ， 它 有 四 种 
取 值 ， 分 别 为 “基本 账户 ”、“ 一 般 账户 ”、“ 临 时 账户 ”和 “专用 账户 ”。 若 将 “账户 


| 


数据 挖掘 号 论 


类 型 ”属性 作为 神经 网 络 的 输入 数据 ， 就 必须 进行 数据 变换 ， 使 之 成 为 [0.1] 区 间 的 数值 
数据 。 

目标 : 对 “账户 类 型 ”属性 进行 分 类 -数值 变换 ， 使 之 落 在 [0,1] 区 间 。 

方法 : 使 用 上 述 变 换 方法 一 和 方法 二 进行 数据 变换 。 

结果 : 如 表 6.1 所 示 应 用 两 种 方法 进行 数据 变换 。 方 法 一 简单 ， 但 各 种 类 型 的 账户 的 


[0,1] 区 间 取 值 距离 存在 距离 因素 ， 会 人 为 造成 基本 账户 与 专用 账户 更 加 不 同 ， 而 与 一 般 账 
户 最 为 接近 的 错觉 。 方 法 二 使 用 了 双 节点 方案 ， 在 增加 了 一 个 输入 节点 的 代价 下 ， 解 决 了 
方法 一 的 偏差 。 


表 6.1 “账户 类 型 ”属性 的 分 类 -数值 变换 
分 类 类 型 属性 值 


【0,1] 区 间 数 值 型 属性 值 (方法 一 ) 
基本 账户 0 


专用 账户 


[0,1] 区 间 数 值 型 属性 值 (方法 二 ) 


对 于 不 在 [0,1] 区 间 的 数值 数据 ， 要 进行 数据 标准 化 (Normalization) 变 换 中 的 归 一 化 处 
理 ， 将 数据 映射 到 [0,1] 区 间 上 。 常 见 的 数据 归 一 化 的 方法 有 以 下 五 种 。 

(1) 十 进 制 缩放 (Decimal Scaling)。 十 进 制 缩放 是 将 每 一 个 数据 值 除 以 10 的 整 次 方 。 例 
如 ， 如 果 知 道 某 属 性 的 取 值 范围 在 0 到 100 之 间 ， 则 可 以 将 每 个 值 除 以 100 使 得 取 值 范围 
变 为 [0,1] 区 间 。 其 公式 如 式 (6.1) 所 示 。 该 方法 要 求 原始 数据 大 于 等 于 0, 否则 变换 会 产生 [-1,0] 
区 间 的 数 。 
originalValue 

oldMax 

其 中 : oldMax 表示 属性 的 初始 最 大 值 ， newValue 为 originaValue 的 变换 值 。 

(2) Min-Max 标准 化 (Min-Max Normalization)。 也 叫 离 差 标准 化 ， 适 用 于 属性 的 最 小 值 
和 最 大 值 都 已 知 的 情况 。 其 公式 如 下 : 

originalValue lue - oldMin 


newValue = - 
oldMax - oldMin 
其 中 : oldMax 和 oldMin 表示 属性 的 初始 最 大 值 和 初始 最 小 值 ，newValue 为 originaValue 
的 变换 值 。 本 方法 的 缺陷 是 当 有 新 数据 加 入 时 ， 可 能 导致 oldMax 和 oldMin 发 生变 化 ， 需 
(3) Z-Score 标准 化 (Normalization Using Z-scores)。 也 叫 标准 差 标准 化 ， 此 方法 是 将 该 
值 减 去 属性 平均 值 (w) 再 除 以 属性 的 标准 差 (c)。 经 过 处 理 的 数据 符合 标准 正 态 分 布 ， 即 均 
值 为 0， 标准 差 为 1。 在 未 知 最 大 值 和 最 小 值 时 该 方法 非常 有 用 。 其 公式 如 下 : 
orlginalValue — J/ 
a (6.3) 
(4) 对 数 标准 化 (Logarithmic Normalization)。 在 Min-Max 标准 化 方法 中 不 能 确定 最 小 值 
和 最 大 值 时 ， 往 往 使 用 一 个 任意 大 的 值 作为 除数 去 除 被 变换 的 数 ， 这 样 做 的 结果 可 能 造成 
不 能 覆盖 整个 区 间 的 情况 ， 出 现 高 度 偏 斜 的 数据 。 解 决 办 法 是 在 使 用 上 述 变 换 之 前 ， 以 2 
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newValue = (6.1) 


(6.2) 


newValue = 


或 10 为 底 计算 每 个 数 的 对 数 。 其 公式 如 下 : 村 
ew vie — O82(CnemalValuc) (64) 
Log, (oldMax) 
(5) Atan 函数 转换 (Atan Normalization)。 此 方法 是 用 反正 切 函 数 实现 数据 归 一 化 。 公式 
如 式 (6.5) 所 示 。 该 方法 要 求 原始 数据 大 于 等 于 0， 否 则 变换 会 产生 [-1,0] 区 间 的 数 。 
Atan(originalValue)*2 
nT 


newValue = (6.5) 


2. 神经 网 络 输出 格式 


神经 网 络 的 输出 节点 表示 为 [0.1] 区 间 内 的 连续 值 。 如 果 神经 网 络 是 一 个 用 于 分 类 类 型 
数据 的 分 类 模型 ， 则 需要 对 输出 进行 变换 从 而 提供 分 类 类 型 数据 。 

【 例 6.2】 我 们 希望 训练 神经 网 络 建立 分 类 模型 , 能够 识别 购买 BMW5 的 顾客 性 别 是 
“ 男 ”还 是 “ 女 ”。 

目标 : 建立 输出 为 性 别 值 的 神经 网 络 分 类 模型 ， 能 够 识别 顾客 的 性 别 。 

方法 ， @ 设 计 具有 一 个 输出 层 节点 的 体系 结构 ， 设 置 1 为 男 顾 客 的 理想 输出 ， 指 定 0 
为 女 顾客 的 理想 输出 。 网 络 经 过 训练 后 ， 若 输出 值 为 0.8， 我 们 认为 其 应 分 类 到 男性 顾客 一 
类 。 但 是 ， 当 输出 值 为 0.45 时 ， 分 类 模型 不 能 清晰 分 类 的 情况 下 ， 需 要 使 用 检验 集 数 据 来 
帮助 解决 难以 对 输出 值 进行 明确 解释 的 问题 。@ 设 计 具有 两 个 输出 层 节点 的 体系 结构 ， 即 
节点 1 和 节点 2。 在 训练 过 程 中 ， 对 于 男性 顾客 ， 将 两 个 节点 的 正确 输出 组 合 设置 为 [1,0]; 
对 于 女性 顾客 ， 将 两 个 节点 的 正确 输出 组 合 设置 为 [0.1]。 训 练 完成 后 ， 神 经 网 络 将 认为 节 
点 1 和 节点 2 的 输出 向 量 为 [0.9.0.2] 的 顾客 性 别 为 “ 男 ”， 输 出 向 量 为 [0.1,0.8] 的 顾客 为 女 
顾客 。 但 如 果 当 输 出 组 合 为 [0.3.0.4]， 分 类 模型 不 能 清晰 分 类 的 情况 下 ， 需 要 使 用 检验 集 数 
据 来 帮助 解决 难以 对 输出 值 进行 明确 解释 的 问题 。 

问题 解决 ， 在 将 网 络 应 用 到 未 知 实例 之 前 ， 将 该 检验 集 提 交 给 所 训练 的 网 络 ， 并 记录 
每 个 检验 实例 的 输出 值 ， 再 将 网 络 应 用 到 未 知 实例 。 当 未 知 实例 x 给 出 一 个 不 确定 的 输出 
值 v 时 ， 使 用 在 v 处 或 附近 聚 类 的 大 多 数 检验 集 实 例 所 属 的 类 别 来 分 类 x。 

【 例 6.3】 一 个 用 于 房屋 估价 的 神经 网 络 已 经 训练 成 功 ， 该 网 络 的 输出 数据 为 0.18， 
需要 根据 该 值 还 原 房屋 的 真正 的 预 估价 格 (房屋 价格 范围 限定 在 100 到 1000( 单 位 ， 万 元 ) 
之 间 )。 

问题 ， 根 据 [0.1] 区 间 内 的 神经 网 络 输出 的 房屋 预 估价 格 和 房屋 原始 价格 区 间 ， 计 算 房 
屋 真正 的 预 估价 格 。 

解决 方法 :进行 [0 区间 数据 归 一 化 变换 的 道 变换 。 若 网 络 训练 前 使 用 了 Min-Max 标 
准 化 方法 ， 则 使 用 式 (6.2) 的 逆 运 算 ， 如 式 (6.6) 所 示 ， 进 行 房屋 预 估价 格 的 还 原 。 


orlginalValue = newValue(oldMax — oldMin) + oldMin (6.6) 
结果 : 0.18*(1000-100)+100=262( 万 元 )。 
6.1.3 激励 函数 


神经 网 络 中 的 每 个 节点 接受 输入 值 ， 并 将 输出 值 传递 给 下 一 层 。 输 入 层 的 节点 会 将 输 
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入 属性 值 直接 传递 给 下 一 层 ( 隐 层 或 输出 层 )。 如 图 6.1 中 的 神经 网 络 结构 中 ， 节 点 1、 节 点 
2 和 节点 3 的 输出 分 别 为 0.8、1.0 和 0.4。 
在 神经 网 络 中 ， 隐 层 和 输出 层 节点 的 输入 和 输出 之 间 具 有 函数 关系 ， 这 个 函数 称 为 激 
励 函 数 (Activation Function)。 多 种 函数 可 以 作为 激励 函数 ， 只 需 满足 两 个 要 求 : 一 是 函数 
必须 输出 [0,1] 之 间 的 值 ， 二 是 函数 在 充分 活跃 时 ， 将 输出 一 个 接近 1 的 值 ， 表 示 从 未 在 网 
络 中 传播 活跃 性 。 常 见 的 激励 函数 有 Sigmoid 函数 、 阶 跃 函 数 、 准 线性 函数 和 双 曲 正切 函 
数 等 。 其 中 Sigmoid 函数 是 最 常用 的 函数 ， 因 其 形状 呈 S 形 ， 也 称 S 形 函数 。 
Sigmoid 函数 是 连续 、 可 导 、 有 界 且 关 于 原点 对 称 的 增 函 数 ， 可 用 反正 切 函 数 arctan 
或 指数 函数 exp 来 实现 ， 经 常 使 用 的 函数 形式 如 下 : 
_ arctan(x) 
J 


(6.7) 


J (6.8) 


本 章 选 择 式 (6.8) 作 为 激励 函数 ， 式 中 的 e 是 自然 对 数 的 底 。 图 6.2 显示 了 S 形 函 数 图 ， 
注意 x 的 值 小 于 0， 几乎 没有 输出 活跃 性 。 


-6-5-4-3-2-10123 456™” 


6.2 S 形 函数 


6.2 神经 网 络 训练 


建立 神经 网 络 模型 的 过 程 是 让 实例 数据 重复 地 通过 网 络 ， 通 过 应 用 学 习 算 法 对 网 络 进 
行 训练 以 对 各 层 权 值 进 行 校正 的 过 程 。 具 体 的 学 习 算法 根据 不 同 的 网 络 体系 结构 和 不 同 的 
应 用 而 不 同 ， 常 用 的 学 习 算法 有 反 向 传播 学 习 算法 (Backpropagation Learning，BP 算法 )、 
多 种 改进 的 BP 算法 ， 基 于 随机 搜索 策略 的 智能 优化 算法 ， 包 括 遗 传 算法 、 免 疫 算法 和 粒 
子 群 算法 、 混 沌 算法 等 。 其 中 BP 算法 最 为 常用 和 经 典 ， 本 节 重 点 介绍 基于 BP 算法 的 前 馈 
神经 网 络 的 训练 。 


6.2.1 反 向 传播 学 习 


反 向 传播 学 习 (Backpropagation Learming) 是 前 馈 神 经 网 络 的 有 指导 学 习 方法 ， 和 所 有 的 
有 指导 学 习 过 程 一 样 ， 它 包括 训练 和 检验 两 个 阶段 。 在 训练 阶段 中 ， 训 练 实 例 重复 通过 网 
络 ， 对 于 每 个 训练 实例 ， 计 算 网 络 输出 值 ， 根 据 输出 值 修改 各 个 权 值 。 这 个 权 值 的 修改 方 
向 是 从 输出 层 开 始 ， 反 向 移动 到 隐 层 。 改 变 连 接 权 值 的 目的 是 最 小 化 训练 集 错误 率 。 训 练 
过 程 是 个 迭代 过 程 ， 网 络 训练 直到 满足 一 个 特定 的 终止 条 件 为 止 。 终 止 条 件 可 以 是 网 络 收 


2 124 


敛 到 最 小 的 错误 值 ， 可 以 是 一 个 训练 时 间 标准 ， 也 可 以 是 最 大 人 迭代 次 数 。 

【 例 6.4】 使 用 图 6.1 所 示 的 神经 网 络 结构 和 输入 实例 举例 说 明 反 向 传播 学 习 方 法 。 

目标 : 描述 使 用 BP 学 习 算 法 训练 前 馈 神经 网 络 的 过 程 (一 次 迭代 过 程 )。 

方法 : 使 用 图 6.1 所 示 的 神经 网 络 结构 、 输 入 向 量 ， 表 6.2 中 的 初始 权 值 和 式 (6.8) 的 S 
形 函 数 。 假 设 与 图 6.1 所 示 的 输入 向 量 相关 的 目标 输出 值 为 0.67， 该 输入 的 计算 输出 与 目 
标 值 之 间 存 在 误差 。 假 设 该 误差 与 输出 节点 相关 的 所 有 网 络 连 接 都 有 关 ， 故 需 从 输出 层 开 
始 到 输入 层 ， 逐 层 修正 输出 层 与 隐 层 、 隐 层 之 间 和 隐 层 与 输入 层 之 间 的 权 值 。 即 将 节点 o 
的 输出 误差 反 向 传播 到 网 络 中 , 修改 所 有 12 个 相关 的 网 络 权重 值 , 每 个 连接 权重 的 修改 量 
使 用 公式 计算 得 出 , 该 公式 利用 节点 o 的 输出 误差 、 各 个 节点 的 输出 值 和 S 形 函 数 的 导数 。 
公式 具备 平滑 实际 误差 从 而 避免 对 训练 实例 矫 枉 过 正 的 能 力 。 


表 6.2 图 6.1 所 示 的 神经 网 络 的 初始 权 值 
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步骤 1: 计算 节点 大 六 大 和 o 的 输入 和 输出 值 。 

(1) 区 点 的 输入 =(0.1)(0.8)+(0.2)(1.0)+(0.3)(0.4)=0.4 

(2) 节点 和 的 输出 =.f(0.4)=0.599 

(3) 区 点 的 输入 =(-0.2)(0.8)+(-0.1)(1.0)+(0.1)(0.4) = -0.22 

(4) 节点 的 输出 = 了 (-0.22)=0.445 

(5) 节点 /的 输入 = (0.0)(0.8)+(-0.DG.0)+(0.2)(0.4) =0.06 

(6) 节点 /的 输出 = /0.06) =0.515 

(7) 节点 o 的 输入 =(0.3)(0.599)+(0.5)(0.445)+(0.4)(0.515) = 0.608 

(8) 节点 o 的 输出 = /0.608) = 0.648 

步骤 2: 计算 输出 层 和 隐 层 的 误差 ， 公 式 如 式 (6.9)、 式 (6.10) 和 式 (6.11) 所 示 。 

Error(o)= 人 T-O,)[C 六 oo))] (6.9) 

式 中 , 7 为 目标 输出 ，0O, 为 节点 o 的 计算 输出 ，(T - O,) 为 实际 输出 误差 .PCxz) 为 S 形 函 
数 的 一 阶 导数 ，x .为 S 形 函数 在 节点 o 处 的 输入 。 

式 (6.9) 表 示 实 际 输出 误差 与 S 形 函 数 的 一 阶 导 数 相 乘 ，S 形 函数 在 xzo 处 的 导数 可 简单 
地 计算 为 0,(1-0,)。 则 有 


Eror(0) =(T -0,)0,(1-0,) (6.10) 
隐 层 节点 的 输出 误差 的 一 般 公式 为 : 
Error(i) = [Zameow 】 Ge) (6.11) 


式 中 :Error(o) 一 一 节点 o 的 计算 输出 误差 ; 
Wio 一 一 节点 i 与 输出 节点 o 之 间 的 连接 权重 ; 
了 (一 一 S 形 函数 的 一 阶 导数 ; 

节点 i 处 的 5S 形 函数 的 输入 。 

依据 式 (6.10)， 太 (计算 为 0; (1-Oj。 
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(1) Error(0)=(0.67—0.648)(0.648)(1—0.648)=0.005 

(2) ErrorG) = (0.005)(0.3)(0.599)(L —0.599) = 0.00036 

(3) Error(/)=(0.005)(0.5)(0.445)(1—0.445) = 0.000617 

(4) Error(k)=(0.005)(0.4)(0.515)(1—0.515) = 0.0005 

步骤 3: 更 新 12 个 权重 值 。 

反 向 传播 过 程 的 最 后 一 步 是 使 用 A 规则 (Delta Rule)(Widrow 和 Lehr，1995) 进 行 权重 


校正 ， 更 新 与 输出 节点 连接 相关 的 权重 。A 规则 的 目标 是 最 小 化 平方 误差 和 ， 该 误差 被 定 
义 为 计算 输出 和 实际 输出 之 间 的 欧式 距离 。 权 重 校正 公式 如 下 : 


w, (new) = w, (corrent) + Aw, (6.12) 
Aw 为 加 到 当前 权 值 上 的 增 量 值 ，Aw;, 的 计算 公式 为 
Aw, =()[Eror(o)](0) (6.13) 


其 中 : x 为 学 习 率 参数 ，1 >r>0 ， 本 例 中 取 xr=0.3; Error(0) 为 节点 o 的 计算 误差 ; 


0 为 节点 i 的 输出 值 。 
(1) Aw, =(0.3)(0.005)(0.599) = 0.0009 
w 的 校正 值 = 0.3+0.0009 = 0.3009 
(2) Aw,, =(0.3)(0.005)(0.445) = 0.0007 
wz 的 校正 值 = 0.5+0.0007 = 0.5007 
(3) Aws = (0.3)(0.005)(0.515) = 0.0007 
wi 的 校正 值 = 0.4+0.0007 = 0.40007 
(4) Aw, = (0.3)(0.00036)(0.8) = 0.0000864 
w 的 校正 值 = 0.1+0.0000864= 0.1000864 
(5) Aw =(0.3)(0.00036)(1.0) = 0.000108 
区, 的 校正 值 =0.2+0.000108=0.200108 
(6) Aws =(0.3)(0.00036)(0.4) = 0.0000432 
,的 校正 值 =0.3+0.0000432=0.3000432 
(7) Aw, =(0.3)(0.000617)(0.8) = 0.000148 
,的 校正 值 一 0.2+0.000148 一 -0.19985 
(8) Aw =(0.3)(0.000617)(1.0) = 0.000185 
区 ,的 校正 值 =-0.1+0.000185-0.09982 
(9) Aw, =(0.3)(0.000617)(0.4) = 0.000074 
芭 , 的 校正 值 0.1+0.000074=0.100074 
(10) Awx =(0.3)(0.0005)(0.8) = 0.00012 
wa 的 校正 值 =0.1+0.00012=0.10012 
(11) Aw; =(0.3)(0.0005)(1.0) = 0.00015 
+ 的 校正 值 一 0.1+0.00015 一 0.09985 
(12) Aw,; = (0.3)(0.0005)(0.4) = 0.00006 
wi 的 校正 值 =0.2+0.00006=0.20006 
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至 此 ， 一 次 迭代 过 程 结束 ， 校 正 的 所 有 权 值 如 表 6.3 所 示 。 
表 6.3 第 一 次 迭代 后 图 6.1 所 示 的 神经 网 络 的 权 值 


Wy Wj Wi Wi Vi Wai 

0.1000864 | 0.200108 0.3000432 —0.19985 —0.09982 0.100074 
Wik | W2k W3k Wio Wio Wko 

0.10012 -0.09985 0.20006 0.3009 0.5007 0.40007 


总 结 上 述 过 程 ， 得 到 反 向 学 习 传播 算法 的 一 般 过 程 如 下 。 

(1) 初始 化 网 络 。 

@ 车 有 必要 ， 变 换 输入 属性 值 为 [0,1] 区 间 的 数值 数据 ， 确 定 输出 属性 格式 。 

@ 通过 选择 输出 层 、 隐 层 和 输出 层 的 节点 个 数 ， 来 创建 神经 网 络 结构 。 

@ 将 所 有 连接 的 权重 初始 化 为 [-1.0,1.0] 区 间 的 随机 值 。 

@ 为 学 习 参 数 选 择 一 个 [0,1] 区 间 的 值 。 

@@ 选取 一 个 终止 条 件 。 

(2) 对 于 所 有 训练 集 实例 。 

@ 让 训练 实例 通过 神经 网 络 。 

@ 确定 输出 误差 。 

@ 使 用 A 规则 更 新 网 络 权重 。 

(3) 如 果 不 满足 终止 条 件 ， 重 复 步骤 (2)。 

(4) 在 检验 数据 集 上 检验 网 络 的 准确 度 ， 如 果 准 确 度 不 是 最 理想 的 ， 改 变 一 个 或 多 个 
网 络 参数 ， 从 (1) 开 始 。 
可 以 在 网 络 训练 达到 一 定 的 总 周期 (Epochs) 数 ,或 是 目标 输出 与 计算 输出 之 间 的 均 方 根 
误差 rms( 表 示 网 络 训 练 的 程度 ) 达 到 一 定 标 准时 , 终止 网 络 训 练 。 通常 的 标准 是 当 rms 低 于 
0.10 时 ， 终 止 反 向 传播 学 习 。 

往往 假设 在 进行 了 充分 的 迭代 后 ， 反 向 学 习 技 术 一 定 收 敛 。 然 而 不 能 保证 收敛 是 最 理 
想 的 ， 所 以 可 能 需要 使 用 多 种 神经 网 络 学 习 算法 ， 以 反复 实验 才能 得 到 理想 结果 。 

建立 神经 网 络 模型 的 过 程 需要 技术 的 支持 ， 同 时 因为 在 网 络 训练 的 过 程 中 需要 改变 属 
性 选择 和 学 习 参 数 等 进行 反复 多 次 实验 ， 因 而 经 验 是 相当 重要 的 。 用 于 建立 网 络 的 输入 属 
性 、 网 络 输出 的 格式 、 设 置 多 少 个 隐 层 及 每 个 隐 层 设置 多 少 个 节点 、 选 择 哪个 训练 终止 条 
件 等 ， 都 是 在 网 络 训练 过 程 中 需要 考虑 的 因素 ， 它 们 对 网 络 的 性 能 都 可 能 产生 影响 。 所 以 
可 以 反复 地 实验 ， 在 实验 中 运用 经 验 来 快速 确定 和 选择 参数 ， 以 提高 训练 效率 。 


6.2.2 ” 自 组 织 映射 的 无 指导 聚 类 


反 向 传播 学 习 是 一 种 在 具有 先 验 知识 的 前 提 下 ， 有 指导 的 学 习 过 程 ， 即 学 习 过 程 中 的 
络 权 值 的 调整 是 在 指导 下 完成 的 。 但 在 缺少 学 习 所 需 的 先 验 知识 的 情况 下 ， 就 需要 神经 
络 具 有 自学 习 的 能 力 。 图 沃 。 科 霍 宁 (Teuvo Kohonen)(1982) 提 出 的 Kohonen 自 组 织 映射 
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图 (Self-Organizing Maps，SOMs) 就 是 一 种 具有 自学 习 功 能 的 神经 网 络 ， 该 网 络 是 基于 生理 
学 和 脑 科 学 的 研究 成 果 而 提出 的 。 脑 神经 科学 研究 表明 ， 传 递 感觉 的 神经 元 排列 是 按 某 种 
规律 有 序 进行 的 ， 这 种 排列 往往 反映 所 感受 的 外 部 刺激 的 某 些 物理 特征 。 例 如 ， 在 听觉 系 
统 中 ， 神 经 细胞 和 纤维 是 按照 其 最 敏感 的 频率 分 布 而 排列 的 。 为 此 ，Kohonen 认为 ， 神 经 
网 络 在 接受 外 界 输入 时 ， 将 会 分 成 不 同 的 区 域 ， 不 同 的 区 域 对 不 同 的 模式 具有 不 同 的 响应 
特征 ， 即 不 同 的 神经 元 以 最 佳 方式 响应 不 同性 质 的 信号 激励 ， 从 而 形成 一 种 拓扑 意义 上 的 
有 序 图 ， 称 之 为 映射 图 。 它 表达 了 一 种 非 线性 映射 关系 ， 将 信号 空间 中 各 模式 的 拓扑 关系 
几乎 不 变 地 反映 在 这 张 图 上 ， 即 各 神经 元 的 输出 响应 上 。 由 于 这 种 映射 是 通过 无 指导 的 自 
适应 过 程 完成 的 ， 所 以 也 称 它 为 自 组 织 映 射 图 。 依 据 这 些 研究 成 果 ，Kohonen 又 形式 化 了 
神经 网 络 的 无 指导 聚 类 ， 形 成 了 著名 的 人 Kohonen 神经 网 络 。 

Kohonen 网 络 支 持 简单 的 两 层 结构 。 输 入 层 包 含 输入 向 量 节点 ， 输 入 层 节点 与 所 有 输 
出 层 节点 具有 加 权 连 接 。 通 过 某 种 规则 ， 不 断 地 调整 权 值 ， 使 得 在 训练 后 ， 一 个 区 域 的 所 
有 节点 对 某 种 输入 具有 类 似 的 输出 ， 并 且 簇 的 概率 分 布 与 输入 模式 的 概率 分 布 相 接 近 。 输 
出 层 可 以 采取 任何 格式 ， 但 一 般 被 组 织 为 二 维 网 格 。 图 6.3 给 出 了 有 两 个 输入 层 节点 和 9 
个 输出 层 节点 的 简单 Kohonen 网 络 。 


输入 层 


6.3 ”具有 两 个 输入 层 节 点 的 3x3 Kohonen 网 络 


Kohonen 网 络 是 通过 自 组 织 学 习 完成 网 络 训练 的 。 自 组 织 学 习 (Self-Organized Leaming) 
是 通过 自动 寻找 训练 实例 中 的 内 在 规律 和 本 质 属性 ， 自 组 织 和 自 适应 地 修正 网 络 参数 和 体 
系 结构 的 过 程 。 

Kohonen 网 络 的 自 组 织 功能 是 通过 竞争 学 习 (Competitive Leaming) 来 实现 的 。 在 网 络 学 
习 过 程 中 ， 输 入 实例 被 提交 给 每 个 输出 层 节 点 。 当 一 个 实例 提交 给 网 络 时 ， 与 输入 实例 加 
权 连 接 最 接近 匹配 的 输出 节点 赢得 (Wins) 这 个 实例 。 这 个 节点 获得 修改 它 的 权 值 以 更 接近 
匹配 这 个 实例 的 权力 。 开 始 时 ， 获 胜 节 点 的 邻居 也 获得 修改 加 权 连 接 的 权力 ， 从 而 更 接近 
匹配 当前 实例 的 属性 值 。 然 而 ， 实 例 通过 网 络 几 次 之 后 ， 邻 居 的 尺寸 减 小 了 ， 直 到 最 后 只 
有 获胜 节点 得 到 了 回报 。 

每 次 实例 通过 网 络 时 ， 输 出 层 节点 记录 它们 赢得 的 实例 的 个 数 ， 赢 得 实例 最 多 的 输出 
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节点 在 数据 最 后 一 次 通过 网 络 时 被 保存 起 来 。 保 存 起 来 的 输出 层 节点 数 与 被 认为 是 数据 中 
簇 的 个 数 相 一 致 ， 多 余 输 出 层 节 点 被 删除 。 最 后 ， 那 些 用 被 删除 的 节点 分 类 的 训练 实例 再 
一 次 提交 给 网 络 ， 并 由 一 个 所 保存 的 节点 进行 分 类 。 至 此 ， 节 点 和 与 之 相关 的 训练 集 实例 
一 起 ， 定 义 了 数据 集中 的 徐 。 同 时 ， 还 可 以 应 用 检验 数据 ， 对 训练 数据 所 形成 的 簇 进 行 分 
析 ， 以 帮助 确定 所 发 现 事物 的 含义 。 

【 例 6.5】 使 用 图 6.4 所 示 的 神经 网 络 结构 和 输入 实例 举例 说 明 自 组 织 学 习 方 法 。 

在 图 6.3 中 的 Kohonen 网 络 结构 中 ， 有 两 个 输入 节点 和 9 个 输出 层 节 点 ， 为 方便 描述 
自 组 织 映射 的 过 程 ， 现 将 输出 层 节 点 简化 为 3 个 ， 如 图 6.4 所 示 ， 图 中 还 标 出 了 输入 层 和 
输出 层 各 个 连接 的 权 值 。 


6.4 具有 3 个 输出 层 节点 的 Kohonen 网 络 


步骤 1: 找 出 获胜 输出 节点 。 
当 一 个 实例 被 提交 给 网 络 时 ， 计 算出 用 每 个 输出 层 节点 分 类 该 实例 的 值 ， 式 (6.14) 计 算 
得 出 用 输出 节点 7 分 类 新 节点 的 值 ， 记 作 vy。 


v= Ew, —w,) (6.14) 

其 中 : n, 是 输入 层 节点 i 的 输入 值 ，w, 是 输入 层 节 点 i 和 输出 层 节 点 j 连接 的 权 值 ; v， 
为 输出 层 节点 j 与 输入 实例 的 连接 权 值 向 量 距离 输入 实例 的 欧式 距离 ， 其 中 最 接近 匹配 输 
入 实例 的 输出 节点 为 获胜 节点 ， 即 计算 出 的 w 、v,、% 值 最 小 的 节点 为 获胜 节点 。 

图 6.4 所 示 的 输入 向 量 为 [0.3,0.8]， 下 面 按照 式 (6.14) 计 算 w、v,、vw 的 值 。 

(1) w=V(03-0.1) +(0.8—0.1) =0.728 

CO) v=V03-03) +(0.8-0.6) =02 

3) w=V(03—02) +(0.8—0.3): =0.5099 
其 中 v 的 值 最 小 ， 节 点 7 为 获胜 节点 ， 它 的 权重 向 量 值 与 所 提交 的 实例 输入 值 更 相似 。 

步骤 2: 校正 权 值 向 量 ， 奖 赏 获胜 输出 节点 。 

与 输出 节点 相关 的 权重 向 量 被 校正 ， 以 奖赏 赢得 输入 实例 的 这 个 输出 节点 。 用 式 (6.15) 
来 校正 权重 向 量 的 值 : 


w(new)= w, (current) + Aw, (6.15) 
其 中 : Aw =7r(n, —W), 0<r<1。 


调整 获胜 输出 节点 与 新 实例 连接 的 权重 向 量 值 。 此 处 设 r=0.5， 节 点 j 作 为 获胜 节点 ， 
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它 与 节点 1 和 节点 2 两 个 输入 层 节 点 连接 的 权重 向 量 被 校正 。 
(1) Aw =(0.5)(0.3—0.3)=0 
(2) w(new)=0.3+0=0.3 
(3) Aw =(0.5)(0.8—0.6)=0.1 
(4) wew)=0.6+0.1=0.7 


1 
1 
' 获胜 节点 的 一 个 邻近 范围 内 的 输出 层 节点 通过 使 用 相似 的 公式 也 可 以 获得 校正 值 。 这 
1 
1 
1 
1 
1 
1 


个 邻近 范围 称 为 邻居 ， 一 般 可 以 用 一 个 方 格 来 划 定 邻居 。 方 格 的 中 心 为 获胜 节点 ， 当 训练 
开始 时 ， 指 定 邻 居 的 大 小 和 学 习 率 ”， 两 个 参数 在 多 次 迭代 的 过 程 中 应 该 呈 线 性 递减 趋势 。 
在 达到 夫 代 的 预 置 次 数 或 实例 分 类 在 从 一 次 迭代 到 下 一 次 迭代 不 再 改变 时 ， 学 习 终 止 。 

步骤 3: 完成 聚 类 。 

输出 节点 固定 它们 的 连接 权 值 , 删 去 除 个 赢得 实例 最 多 的 输出 节点 之 外 的 所 有 节点 。 
然后 ， 再 一 次 将 那些 用 被 删除 的 节点 分 类 的 训练 实例 提交 给 网 络 ， 并 由 留 下 来 的 获胜 输出 
节点 对 它们 再 进行 一 次 分 类 ， 并 提供 检验 集 实例 进行 检验 。 最 后 ， 对 训练 所 得 的 簇 和 检验 
数据 进行 分 析 ， 以 解释 所 发 现 的 内 容 。 


6.2.3 实验 : 应 用 BP 算法 建立 前 馈 神经 网 络 
下 面 介绍 如 何 使 用 Weka 软件 ， 使 用 反 向 传播 学 习 算 法 (BP 算法 ) 创 建 有 指导 的 分 类 


模型 。 
1. 基本 步骤 
依据 第 3 章 介 绍 的 KDD 过 程 模型 ， 建 立 前 馈 神经 网 络 的 基本 步骤 如 下 。 
(1) 数据 准备 。 


(2) 定义 网 络 体 系 结构 和 设置 相关 参数 。 
(3) 训练 网 络 。 

(4) 解释 训练 结果 。 

(5) 若 结果 不 理想 ， 重 复 步 又 (1) 一 (4)。 
2. 实验 1: 建立 逻辑 异 或 模型 


【 例 6.6】 异 或 (ExclusiveOR，XOR) 逻 辑 运 算 规 则 如 表 6.4 所 示 。 现在 将 XOR 逻辑 运 
算 规则 表 看 作 由 两 个 运算 数 为 输入 属性 、 运 算 结果 为 输出 属性 的 数据 集 ， 输 出 为 两 个 类 : 
一 个 类 的 分 类 值 等 于 1， 该 类 有 两 个 实例 ; 另 一 个 类 的 分 类 值 等 于 0， 该 类 也 有 两 个 实例 。 
使 用 Weka 软件 ， 建 立 前 馈 神 经 网 络 。 

图 6.5 给 出 了 输出 的 图 形 化 解释 ，x 坐标 表示 Operand1 的 值 ，y 坐标 表示 Operand2 的 
值 , XOR 等 于 1 的 类 实例 用 A 表示 , XOR 等 于 0 的 类 实例 用 B 表示 , 从 图 中 可 以 看 到 XOR 
函数 不 是 线性 可 分 (Linearly Separable) 的 , 即 不 能 画 出 一 条 直线 将 类 A 中 的 实例 与 类 B 中 的 
实例 划分 开 。 
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表 6.4 XOR 逻辑 运算 


Operand1 Operand 2 XOR 


Operand2 


Operandl 
6.5 XOR 函数 图 


步骤 1: 准备 训练 数据 。 

新 建 Excel 电子 表格 文件 ， 输 入 内 容 如 表 6.4 所 示 ， 另 存 为 .csv 文件 ， 并 加 载 到 Weka 
Explorer 中 ， 如 图 6.6 所 示 。 

步骤 2: 定义 网 络 体系 结构 ， 设 置 相关 参数 。 

定义 网 络 体系 结构 需要 作出 以 下 几 项 选择 。 

(1) 隐 层 (Hidden Layers): 可 以 设置 1 一 2 个 隐 层 ， 并 指定 每 个 隐 层 中 节点 的 个 数 。 在 
Weka 中 的 格式 为 用 逗号 分 隔 的 各 隐 层 中 节点 的 个 数 ， 如 指定 两 个 隐 层 ， 分 别 有 5 个 和 3 
个 隐 层 节点 ， 则 设置 格式 为 (5.3)。 

(2) 学 习 率 (Learning Rate): 可 以 是 一 个 0.1 到 0.9 的 范围 内 的 数值 。 通常 较 低 的 学 习 率 
需要 较 多 的 训练 迭代 ， 较 高 的 学 习 率 使 得 网 络 收敛 得 更 快 ， 而 由 此 获得 不 理想 的 输出 结果 
的 机 会 也 就 更 大 。 

(3) 周期 (Epochs): 全 部 训练 数据 通过 网 络 的 总 次 数 ， 在 Weka 中 称 为 Training Time。 

(4) 收敛 性 (Convergence): 通过 收敛 性 的 设置 来 选择 一 个 训练 终止 的 最 大 均 方 根 误差 。 
收敛 参数 的 合理 设置 为 0.10。 如 果 希 望 根据 周期 数 来 终止 训练 ， 收 敛 参 数 可 以 设置 为 一 个 
任意 小 的 值 。 

在 Weka Explorer 中 切换 到 Classify 选项 卡 ， 单 击 Classifier 窗口 的 Choose 按钮 ， 选 择 
分 类 器 MultilayerPerceptron， 即 基于 BP 学 习 算法 的 多 层 前 馈 神经 网 络 ， 如 图 6.7 所 示 。 
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在 Choose 按钮 右边 的 文本 框 中 右 击 , 在 弹出 的 快捷 菜单 中 选择 Show properties 命令 ， 


or》—、，、， | 


Preprocess [clessify [Chater [dasoctate|Select attributes [M1sualiae] 


Eee [Lone (anaes ba) (Seve | 
sy 
Selected attribute 
operandl Type 
hearipanessa ies 0 tom) 


AL None ] Trvert [Re 


Log 可 0 


6.6 加载 XOR 逻辑 运算 数据 集 


veka 
DB classifiers 
DB bayes 
SB functions 
9 GaussianProcesses 
@ IsotonicRegression 
@ LeastjledSq 


. 
® LibSVIL 
© LinearRegression 


器 


® SinpleLinearRegression 


SNOreg 


昌 田 鳃 
Pe 

下 

引 要 
2 


6.7 选择 分 类 器 


如 图 6.8 所 示 ， 打 开 分 类 器 的 属性 设置 对 话 框 ， 如 图 6.9 所 示 。 


在 属性 设置 对 话 框 中 , 将 GUI 设置 为 True， 使 得 在 训练 前 ， 可 查看 包含 神经 网 络 体系 
结构 的 GUI 界面 (出 现 如 图 6.10 所 示 的 网 络 结构 ), 并 可 交互 式 地 修改 结构 和 设置 其 他 参数 ， 
且 可 以 在 网 络 训练 过 程 中 和 暂停， 进行 结构 和 参数 的 反复 修改 。 在 属性 设置 对 话 框 中 ， 设 置 
hiddenLayers 为 “5.3”， 表 示 有 两 个 隐 层 ， 分 别 有 5 个 和 3 个 隐 层 节点 ; 设置 learning-Rate 
trainingTime 为 “10 000”。 


po a 
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Show properties... 
Copy configuration to clipboard 
Enter configuration... 


6.8 ”属性 配置 快捷 菜单 


wekaguiGenericObjecttdto 一 一 


上 classifiers. fnctions. KultilayerPerceptron 


About 


| aclassiermat ses dacprpagaton to asst netanees 一 


Capabilitics 


utoBuild Irue 


debug [Ealse 


decay [False 


hiddenLayers | 
earningRate |0.3 


EEC 


| neminalToBinaryfilter [True 


| nornalizeAttributes True - 
| 

Se 
| 5 


seed [0 


| walidationsetsize |0 


validationThreshold |20 


| [Open... Saye. OK 了 [cancel 
L 


Epoch 0 Learning Rate = |0.5 
Mum Of Epochs 10000) 


‖EEsssasa Rrror per Rooch = 0 Nonentum = (0. 


6.10 ”神经 网 络 的 GUI 界面 


单 击 OK 按钮 , 回 到 Weka Explorer 的 Classifier 窗口 , 设置 Test Options 为 Use training 
set， 并 单 击 More options 按钮 ， 打 开 Classifier evaluation options 对 话 框 ， 如 图 6.11 所 示 ， 
选中 Output predictions 复 选 框 ， 以 确保 在 输出 中 能 够 看 到 检验 集 的 分 类 情况 。 

步骤 3: 训练 网 络 。 

单 击 Weka Explorer 的 Classifier 窗口 中 的 Start 按钮 , 开始 神经 网 络 的 训练 过 程 。 此 时 ， 
弹出 如 图 6.10 所 示 的 神经 网 络 GUI 界面 中 ， 单 击 Start 按钮 ， 执 行 训 练 ， 并 选择 Accept 训 
练 结 果 。 结 果 如 图 6.12 所 示 。 
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© Classifier evaluation options ”” 攻 末 


| 园 output nodel 
Output per-class stats 
回 output entropy evaluation aeasures 


Output confusion natrir 


| || Dutput predictions 


| Output additional attributes 
]Cost-sensitive evaluation 
| Randon seed for XYal / % Split 1 
TPreserve order for % Split 


Dutput source code [WekaClassi 


| 园 store predictions for visualization 


6.11 ”Classifier evaluation options 对 话 框 


Classifier output 
Time taken to build nodel: 16.67 seconds 


w= Predictions on training set === 


insth, actual, predicted, error 
1 0 0 


-一 Evaluation on training ser -一 


we Susmary 一 


Relative absolure error 5.3907 
Root relative squared error 39.8372 4 
Toral Nurber of Instances 4 


6.12 XOR Classifier 的 输出 结果 


步骤 4: 解释 训练 结果 。 


从 输出 结果 中 可 以 看 到 ,结果 并 不 理想 。 其 中 的 mms 为 0.4992，4 个 检验 集 实 例 ，2 个 
属于 XOR 等 于 1 的 类 实例 分 类 正确 ,而 2 个 属于 XOR 等 于 0 的 类 实例 中 的 一 个 分 类 错误 ， 
另 一 个 的 计算 输出 值 为 0.408， 不 能 清晰 地 确定 属于 哪个 类 。 

步骤 $: 结果 不 理想 ， 更 改 结构 ， 调 整 参数 ， 重 复 实 验 。 

观察 到 分 类 器 的 输出 结果 不 理想 ， 更 改 网 络 结构 ， 调 整 参数 ， 重 复 实验 。 这 次 实验 指 
定 1 个 隐 层 ， 具 有 两 个 隐 层 节点 。 学 习 率 设置 为 0.1， 降 低 学 习 率 的 目的 是 提高 迭代 次 数 ， 


希望 得 到 更 理想 的 结果 。 其 他 参数 保持 默认 值 。 


开始 训练 ， 神 经 网 络 的 GUI 界面 如 图 6.13 所 示 ， 结 果 显 示 在 图 6.14 中 ， 通 过 观察 ， 
实验 的 ms 为 0， 所 有 检验 集 实例 分 类 正确 ， 结 果 令 人 满意 。 
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NE ”+ ° Learning Rate = (0.1 
Wun 0f Epochs 10000) 

| hesspt] Error per Booch = 0 Wenentum = [0.2 


6.13 ”第 二 次 实验 的 XOR 神经 网 络 GUI 界面 


Classifier output 
[Tine caken to build model: 50.97 seconds 


wm Predictions on training ser wm 


insty, = actual, predicted, error 


0 


1 
1 
0 


w= Evaluation on training sec = 
Summary w= 


Correlation coefficient 1 


Root nean squared error 0 


WT Tre rr 人 
Roor relative squared error 0 人 
Toral Nunber of Instances 4 


6.14 ”第 二 次 实验 XOR Classifier 的 输出 结果 


3. 实验 2: 基于 iris 数据 集 的 神经 网 络 分 类 模型 


【 例 6.7】 使 用 iris 数据 集 (如 图 6.15 所 示 ), 运用 BP 学 习 方法 ,建立 前 馈 神 经 网 络 分 
类 模型 。iris 数据 集中 包含 了 150 个 实例 (每 个 分 类 包含 50 个 实例 )， 有 Sepal length( 莹 片 长 度 )、 
Sepal width( 苯 片 宽度 )、Petal length( 花 汶 长 度 )、Petal_width( 花 泊 宽 度 ) 和 Species name 或 
class( 注 : iris 数据 集 有 两 个 版 本 )5 个 属性 。 前 4 个 属性 为 数值 型 ，Species_name 属性 为 分 类 
属性 ， 表 示 实 例 所 对 应 的 类 别 Iris-Setisa( 山 意 花 ) 、Iris-Versicolour( 变 色 意 花 ) 和 
Iris-Virginica( 弗 吉 尼 亚 州 营 花 )。 


[ A B C YE E F 

| Species No Petal wdh| Petal lengh[ Sepal width| Sepal lengh| Species name 

| 2 1 3.5 2 5 Versicolor 
2 1 4 2.2 6 Versicolor 
2 1.5 4.5 2.2 6.2 Versicolor 
3 1.5 Fo 6 Vergnica 
工 0.3 1.3 2.3 4.5 Setosa 
2 1 3.3 2.3 9 Versicolor 
2 1.3 4 2.3| 5.5 Versicolor 
2 3.3| 4.4 2.3 6.3 Versicolor 

图 6.15 iris 数据 集 
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步骤 1: 准备 训练 数据 。 
加 载 iris.arff 文件 到 Weka Explorer 中 ， 如 图 6.16 所 示 。 


Type: Nm. 
-nique: 9 (eX) 


| 


0 8 
ss class = [yisusllze Al 


6.16 ”加 载 iris 数据 集 
步骤 2: 定义 网 络 体系 结构 ， 设 置 相关 参数 。 
指定 两 个 隐 层 ， 分 别 包 含 5 个 和 3 个 隐 层 节点 ， 其 他 参数 保持 默认 ， 并 仍然 使 用 训练 

实例 作为 检验 实例 。 注意， 确保 normalizeAttributes 参数 被 设置 为 True， 而 使 得 Weka 能 够 
自己 归 一 化 输入 属性 。 网 络 结构 如 图 6.17 所 示 。 


1 Neural Network 


| controis 

| 2 Learning Rate = 0.3| 
Num Of FEpache 1000 

| secents) geror per epoch = 0 Nonentun = 10.3 


图 6.17 _iris 神经 网 络 的 GUI 界面 


步骤 3: 训练 网 络 。 

单 击 Weka Explorer 的 Classifier 窗口 和 神经 网 络 GUI 界面 上 的 Start 按钮 , 开始 网 络 训 
练 。 结 果 如 图 6.18 所 示 。 

步骤 4: 解释 训练 结果 。 

从 图 6.18 中 可 以 看 到 , 训练 结果 比较 理想 。 rms 的 值 为 0.0672, 分 类 正确 率 为 99.33%， 
观察 混淆 矩阵 ， 可 以 看 到 只 有 一 个 实例 分 类 错误 。 

结果 理想 ， 不 需要 继续 实验 。 
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= 一 Evaluation on training set -一 


= Surmary =—= 
Correctly Classified Instances 149 99.3333 $ 
Incorrectly Classified Instances 1 0.6667 $ 
Kappa statistic 0.99 
Ross asap 2gaazsd szoz 0.0572 
Relative absolute error 2.4905 $ 
Root relative squared error 14.2634 $ 
Toral Number of Instances 150 


=== Detailed Accuracy By Class === 


TB Rare FPRate Precision Recall F-Measure ROC Area 


1 0 和 和 1 1 
0.98 0 1 0.98 0.99 0.987 
1 0.01 0.98 1 0.99 0.997 
Weighted Avg. 0.993 0.003 0.993 0.993 0.993 0.995 


=== Confusion Matrix === 


a bec <-- classified as 


50 0 0| a= Iris-setosa 


0 49 1 1 b = Iris-versicolor 
0 0 50 | c = Iris-virginica 


6.18 iris Classifier 的 输出 结果 


进一步 观察 所 有 实例 的 计算 结果 和 实际 结果 的 对 比 ， 发 现 第 84 号 实例 实际 应 属于 第 2 
类 “Iris-versicolour( 变 色 意 花 )”， 计 算 结 果 被 分 到 第 3 类 “Iris-virginica( 弗 吉 尼 亚 州 意 
花 )” 中 。 

为 了 检验 该 神经 网 络 分 类 模型 对 于 分 类 输出 值 未 知 实例 的 性 能 ， 将 iris 数据 集中 的 3 
个 类 分 别 取出 25 个 实例 ， 共 75 个 实例 组 成 检验 集 (文件 iis-7StestcsV)， 剩 余 的 75 个 实例 
作为 训练 集 实例 (文件 iris-75train.csv)， 重新 实验 。 这 次 选择 test options 选项 为 Supplied test 
set， 选 择 iris-75test 为 检验 集 ， 其 他 参数 不 变 。 训 练 结果 如 图 6.19 所 示 。 


=== Evaluation on test set === 
= Surmary === 


Incorrectly Classified Instances 0 0 委 
Kappa statistic 1 

Relative absolute error 2.362 二 

Root relative squared error 2.659 $$ 

Tocal Nurber of Instances 75 


=== Detailed Accuracy BY Class === 


TPRate FPRate Frecision Recall F-Measure ROC Area 
1 1 1 1 


ooo0o 


1 

1 1 和 1 1 

1 1 1 1 1 
Weighted Avg. 1 1 1 1 1 
=== Confusion Matrix === 


a b c <-- classified as 


25 0 01 a= Setosa 
025 01 be Versicolor 
0 0251 c= Verginica 


6.19 iris 神经 网 络 分 类 模型 在 检验 集 上 的 输出 结果 
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反 向 传播 学 习 的 一 个 特别 需要 关注 的 问题 是 可 能 会 过 度 训 练 网 络 , 即 出 现 训 练 实例 mms 
非常 令 人 满意 ， 而 检验 实例 的 mms 却 非常 令 人 不 满意 ， 证 明 该 模型 在 训练 实例 上 表现 出 较 
好 的 性 能 ， 而 在 未 知 输出 的 检验 集 实力 上 表现 不 佳 。 解 决 这 个 问题 的 一 种 重要 方法 就 是 上 
更 少 的 周期 重新 训练 网 络 ， 避 免 训 练 过 度 。 

本 例 中 的 iris 神经 网 络 分 类 模型 在 检验 集 上 表现 出 更 为 出 色 的 性 能 , rms 为 0.0125, 分 
类 正确 率 为 100%。 证 明 该 模型 不 存在 训练 过 度 的 情况 。 


6.3 神经 网 络 模型 的 优势 和 缺点 


神经 网 络 模型 具有 以 下 优势 。 

(1) 神经 网 络 技术 与 其 他 技术 相 比 ， 更 为 擅长 处 理 包含 大 量 噪声 数据 的 数据 集 ， 这 主 
要 是 因为 神经 网 络 的 激励 函数 ， 如 S 形 函 数 能 够 自然 地 平滑 外 部 和 随机 误差 带 来 的 输入 
数据 噪声 。 

(2) 通过 对 分 类 类 型 数据 的 变换 ， 神 经 网 络 不 仅 可 以 处 理 数 值 型 数据 ， 还 可 以 处 理 分 
类 类 型 数据 。 

(3) 神经 网 络 技术 具有 悠久 的 历史 ， 其 研究 也 得 到 普遍 的 重视 ， 并 已 经 在 很 多 领域 中 
得 到 广泛 应 用 ， 且 表现 良好 。 

(4) 神经 网 络 既 可 以 用 于 有 指导 的 学 习 ， 也 可 以 用 于 无 指导 的 聚 类 。 

神经 网 络 模型 具有 以 下 缺点 。 

(1) 神经 网 络 最 大 的 缺点 是 它 是 一 个 黑 盒子 型 模型 ， 对 于 自身 的 解释 能 力 不 强 。 

(2) 神经 网 络 学 习 算 法 不 能 保证 收敛 到 最 理想 的 结果 ， 所 以 经 常 需要 通过 选择 多 种 学 
习 参 数 反复 实验 才能 得 以 解决 。 

(3) 神经 网 络 很 容易 过 度 训练 ， 从 而 导致 在 训练 数据 上 工作 得 很 好 ， 而 在 检验 数据 上 
表现 欠 佳 ， 这 个 问题 可 以 通过 不 断 地 检查 检验 集 性 能 来 解决 。 


本 章 小 结 


本 章 内 容 概述 如 图 6.20 所 示 。 


一 (神经 网 络 训练 
人 神经 网 络 技术 | 
|、 神 经 网 络 基本 概念 抬 传播 学 习 | 


一 


| -神经 网 络 模型 一 让 ss _ /| 


| 、_ 神 经 网 络 输入 格式 zx __， 


-神经 网 络 窒 出 格式 。 (神经 网 络 的 优势 和 缺点 


图 6.20 第 6 章 内 容 导 图 
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神经 网 络 的 是 一 种 试图 模拟 人 类 大 脑 、 由 多 个 称 之 为 神经 元 的 处 理 单元 节点 构成 的 层 
次 结构 模型 。 输 入 网 络 的 数据 必须 为 [0,1] 区 间 的 数值 型 数据 ， 存 在 多 种 变换 方法 对 分 类 类 
型 的 数据 进行 变换 。 网 络 的 输出 结果 也 必须 为 [0.1] 区 间 的 数值 数据 ， 对 于 分 类 类 型 的 输出 
属性 , 需要 依据 不 同 的 要 求 和 应 用 , 进行 数值 变换 或 编码 。 目 前 的 数据 挖掘 软件 , 如 Weka， 
都 能 够 在 网 络 训练 前 自动 完成 输入 数据 和 输出 数据 的 [0.1] 数 值 变换 工作 ， 并 且 对 于 输出 结 
果 进 行 逆 变 换 ， 还 原 原 始 值 域 中 的 值 。 

神经 网 络 的 训练 过 程 可 以 是 有 指导 和 无 指导 的 。 反 向 传播 学 习 算 法 (BP 算法 ) 是 一 种 有 
指导 的 学 习 方 法 , 用 来 训练 前 馈 神 经 网 络 。BP 算法 使 用 网 络 计 算 输 出 与 实际 输出 之 间 的 误 
差 ， 从 输出 层 开始 调整 权重 ， 并 反 向 移动 到 隐 层 。 这 个 过 程 是 迭代 的 ， 终 止 条 件 可 以 是 均 
方 根 误差 tms) 达 到 某 个 标准 、 最 大 人 迭代 次 数 (周期 数 ) 或 训练 时 间 。 训 练 过 的 网 络 可 以 用 来 
分 类 未 知 输出 的 实例 或 估计 、 预 测 其 输出 值 。 

自 组 织 学 习 方 法 是 一 种 无 指导 的 聚 类 方法 ， 用 来 训练 自 组 织 的 Kohonen 神经 网 络 。 自 
组 织 学 习 ， 是 通过 竞争 学 习 来 实现 的 ， 对 于 每 个 输出 节点 ， 其 权 值 向 量 与 输入 实例 的 属性 
值 进 行 最 近 匹 配 ， 最 近 匹 配 的 节点 为 获胜 节点 ， 修 改 获胜 节点 的 输入 权 值 向 量 ， 使 之 与 当 
前 训练 实例 更 加 匹配 ， 最 后 保存 赢得 大 部 分 实例 的 输出 节点 ， 并 应 用 检验 数据 分 析 簇 ， 确 
定 所 发 现 内 容 的 含义 。 

围绕 神经 网 络 的 一 个 中 心 问题 是 缺乏 解释 所 学 内 容 的 能 力 。 尽 管 这 样 ， 神 经 网 络 仍然 
成 功 地 应 用 于 解决 商业 和 科学 领域 的 问题 。 

可 以 使 用 Weka 软件 进行 反 向 传播 学 习 建立 前 馈 神 经 网 络 分 类 模型 ， 本 章 通过 两 个 实 
验 完 整 阐述 了 准备 数据 、 定 义 网 络 结构 和 设置 参数 、 进 行 网 络 训练 和 解释 结果 的 整个 建立 
过 程 。 在 训练 过 程 中 ， 调 整 网 络 结构 、 学 习 率 、 训 练 时 间 等 参数 是 为 了 达到 更 理想 的 结果 ， 
包括 较 小 的 mms 值 、 较 高 的 检验 集 分 类 正确 率 等 。 


习 题 


1. 画 出 一 个 全 连接 的 前 馈 神 经 网 络 ， 该 网 络 有 两 个 输入 层 节点 ，1 个 隐 层 ，3 个 隐 层 
节点 和 4 个 输出 层 节点 。 

2. 使 用 两 种 分 类 -数值 变换 方法 ， 将 心脏 病人 数据 集中 的 Chest Pain Type( 胸 痛 类 型 ) 
的 4 个 属性 值 Angina、Abnormal Angina、NoTang、Asymptomatic 变换 为 等 价 的 [0.1] 区 间 
的 数值 数据 。 

3. 使 用 Min-Max 标准 化 方法 将 45 岁 年 龄 值 ， 变 换 为 [0,1] 区 间 的 值 ， 年 龄 的 取 值 范围 
为 [18.100]; 假设 通过 神经 网 络 计算 得 到 一 个 年 龄 值 为 0.6， 将 这 个 [0.1] 区 间 内 的 输出 值 还 
原 为 正常 年 龄 值 。 

4. 对 于 输入 实例 [0.3,0.6,0.5]， 计 算 图 5.1 所 示 的 神经 网 络 中 节点 i、 节点 和 节点 的 
输入 值 和 输出 值 。 

5. 使 用 Buildings 数据 集 (Excel-Buildings.csv) 和 反 向 传播 学 习 建 立 神经 网 络 模型 , 对 新 
办 公 楼 进行 估 值 。 在 训练 网 络 之 前 ， 对 于 输入 数据 和 输出 数据 进行 观察 和 分 析 ， 判 断 是 否 
需要 进行 人 工 变 换 。 使 用 数据 集中 的 前 8 个 实例 进行 训练 ， 后 3 个 实例 进行 检验 ， 并 添加 
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3 个 房价 未 知 的 新 实例 ， 使 用 神经 网 络 模 型 进行 房价 预 估 。 

6. ”使 用 心脏 病 患 者 数据 集 (CardiologyNumerical.arff) 的 前 200 个 实例 进行 反 向 传播 学 
习 训 练 ， 剩 余 的 103 个 实例 作为 检验 集 实例 进行 模型 检验 。 改 变 网 络 结构 和 参数 ， 使 之 达 
到 更 为 理想 的 检验 集结 果 。 
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本 章 要 点 提示 


统计 学 是 一 门 对 数据 收集 、 整 理 和 分 析 处 理 ， 从 而 得 到 数据 特征 和 预测 对 象 未 来 的 综 
合 性 科学 。 大 多 数 统计 分 析 方法 都 具有 较 强 的 数学 理论 基础 ， 在 分 析 数据 和 预测 对 象 方面 
有 着 较 高 的 准确 度 ， 从 而 使 其 在 社会 科学 和 自然 科学 的 各 个 领域 都 得 到 了 普遍 和 成 功 的 应 
用 。 统 计 分 析 方 法 和 技术 也 是 数据 挖 握 技 术 中 非常 重要 和 比较 成 熟 的 技术 ， 在 数据 挖 气 的 
过 程 中 ， 运 用 、 延 伸 和 扩展 了 许多 统计 学 的 方法 。 常 用 的 分 析 方 法 包括 回归 分 析 、 贝 叶 斯 
分 析 、 聚 类 技术 和 主 成 分 分 析 、 时 间 序 列 分 析 等 。 

本 章 将 详细 介绍 数据 挖 气 中 几 种 常用 的 统计 技术 。7.1 节 介 绍 了 线性 回归 、 非 线性 回归 
和 树 回归 。7.2 节 介 绍 了 使 用 贝 叶 斯 分 类 器 建立 分 类 和 实 值 数据 的 有 指导 学 习 模 型 。7.3 节 
讨论 了 统计 技术 中 的 聚 类 技术 ， 重 点 介绍 了 基于 分 层 的 凝聚 聚 类 和 概念 分 层 聚 类 技术 以 及 
基于 混合 模型 聚 类 技术 的 EM 算法 。 7.4 节 对 比 了 数据 挖掘 中 的 统计 技术 和 机 器 学 习 方 法 的 
不 同 之 处 ， 为 针对 不 同 的 问题 和 数据 情况 选择 不 同 的 数据 挖掘 技术 提供 参考 。 


7.1 回归 分 析 


归 分 析 (Regression Analysis) 是 一 种 统计 分 析 方 法 ， 它 可 以 用 来 确定 两 个 或 两 个 以 上 
变量 之 间 定 量 的 依赖 关系 ， 并 建立 一 个 数学 方程 作为 数学 模型 ， 来 概 化 一 组 数值 数据 ， 进 
而 进行 数值 数据 的 估 值 和 预测 ， 其 应 用 非常 广泛 。 

弗朗西斯 * 高 尔 顿 茵 士 (Francis Galton) 于 1877 年 首先 使 用 了 “回归 ”(Regression) 一 词 。 
基于 他 对 亲子 间 的 身高 研究 ， 得 出 尽管 父母 的 身高 会 遗传 给 子女 ， 但 子女 的 身高 却 有 逐渐 
“回归 到 平均 值 ”(Regression Toward the Mean) 的 现象 。 尽管 这 个 “回归 ”的 概念 与 现在 的 
“回归 ”已 不 尽 相 同 ， 但 这 是 回归 一 词 的 起 源 。 
归 分 析 按 照 涉及 的 自 变 量 的 多 少 ， 可 分 为 一 元 回归 分 析 和 多 元 回归 分 析 ; 按照 自 变 
量 和 因 变 量 之 间 的 关系 类 型 ， 可 分 为 线性 回归 分 析 (Linear Regression Analysis) 和 非 线 性 回 
归 分 析 (Nonlinear Regression Analysis)。 如 果 在 回归 分 析 中 ， 只 包括 一 个 自 变 量 和 一 个 因 变 
量 , 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ， 这 种 回归 分 析 称 为 一 元 线性 回归 分 析 ( 又 称 简单 
线性 回归 分 析 )。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变量 ， 且 因 变 量 和 自 变量 之 间 是 
线性 关系 ， 则 称 为 多 元 线性 回归 分 析 。 
本 归 分 析 是 一 种 有 指导 的 技术 ， 它 通过 建立 一 个 数学 模型 来 表示 一 个 或 多 个 自 变量 的 
组 合 与 因 变量 的 关系 。 
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7.1.1 线性 回归 分 析 
根据 自 变量 和 因 变 量 的 相关 关系 ， 建 立 线性 回归 方程 。 线 性 回归 方程 的 格式 如 下 : 


=ONtaN + ta + 0 N+C (并 
其 中 ， x ,X%,…,,…,% 是 自 变 量 ,，y 是 因 变 量 ， 4a,a,,…,a,,…a, 和 c 是 常量 。 


1. 简单 线性 回归 


简单 线性 回归 (Simple Linear Regression) 是 线性 回归 方程 最 简单 的 形式 ， 它 只 有 一 个 自 
变量 作为 因 变量 的 预测 。 简 单线 性 回归 方程 是 典型 的 斜 截 式 (Slope-Intercept Form) 方 程 ， 格 
式 如 下 : 


b (7.2) 
其 中 , x 是 自 变量 ; y 是 因 变 量 ; a 和 是 常量 , 方程 的 图 形 是 斜率 为 a、y 轴 截 距 为 c 的 一 
条 直线 。 常 量 a 和 c 的 确定 ， 是 建立 回归 方程 的 重要 工作 ， 称 为 参数 估计 
(Parametric Estimating), 它 通 过 应 用 统计 学 原理 对 一 组 已 知 的 x 和 y 值 进行 有 指导 的 学 习 而 
计算 完成 。 常 用 的 计算 a 和 e 的 统计 学 方法 是 最 小 二 乘法 (Least-Squares Criterion)。 
最 小 二 乘法 ， 又 称 最 小 平方 法 ， 是 通过 使 得 因 变 量 预测 值 与 实际 值 之 间 的 误差 的 平方 
和 (方差 ) 最 小 ， 而 得 出 a 和 e 的 最 优 解 。 简 单 的 计算 过 程 如 下 。 
【 例 7.1】 给 出 一 组 x、y 值 ， 如 表 7.1 所 示 。 将 x 作为 自 变量 ，y 作为 因 变量 ， 应 用 
最 小 二 乘法 计算 a 和 c 的 值 ， 建 立 简单 回归 方程 。 


表 7.1 一 组 x、y 值 


wb | 上 |=- |x 


3 
7 
6 
8 


表 7.1 中 的 数据 实例 以 x 和 ? 分 别 为 横 坐 标 值 和 纵 坐标 值 ,在 二 维 坐标 系 下 的 分 布 如 图 
7.1 所 示 的 散 点 图 。 为 了 在 散 点 图 中 观察 这 些 点 的 x 与 值 的 相关 程度 ， 添 加 趋势 线 显示 这 
些 点 的 线性 拟 合 情 况 和 回归 方程 。 操 作 步 又 如 下 。 

(1) 新 建 一 个 Excel 文件 ， 将 表 7.1 中 数据 复制 到 工作 表 的 Al 到 B5 区 域 。 选 中 A2 到 
B5 数据 区 域 ， 单 击 “ 插 入 ”菜单 中 的 “ 散 点 图 ”按钮 ， 在 当前 的 工作 表 中 插入 如 图 7.1 所 
示 的 散 点 图 。 

(2) 在 散 点 图 中 的 任意 一 个 序列 点 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “添加 趋势 线 ” 
命令 ， 如 图 7.2 所 示 。 打 开 “ 设 置 趋势 线 格式 ”对 话 框 ， 如 图 7.3 所 示 ， 选 择 趋势 预测 / 
归 分 析 类 型 为 “线性 ”， 并 选中 “显示 公式 ” 复 选 框 ， 将 如 图 7.1 所 示 的 “y=1.4x+2.5” 
归 方式 显示 在 趋势 线 旁 边 。 
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7.1 表 7.1 中 实例 数据 的 散 点 图 和 趋势 线 7.2 ”添加 趋势 线 


以 上 是 通过 MS Excel 建立 线性 回归 方程 ， 并 显示 出 一 条 拟 合 线 。 下 面 我 们 使 用 最 小 二 
乘法 ， 计 算 回 归 方 程 中 的 a 和 ec 的 值 。 

最 小 二 乘法 是 为 得 出 最 优 的 a 和 ce 的 值 ， 要 使 得 y 的 计算 值 与 实际 值 之 间 的 方差 (误差 
平方 和 ) 最 小 ， 即 使 式 7.3 的 值 最 小 。 

E(a,c)=(3-(latc)? +(7-(4a+c) +(6-(2a+0)): +(8—(3a+c))’ (73) 

求 E(a,c) 最 小 值 的 方法 是 E(a,c) 分 别 对 a 和 c 求 偏 导 , 再 使 两 个 偏 导数 为 0。 即 如 式 (7.4) 
和 式 (7.5) 所 示 。 
=0 (7.4) 


=0 (7.5) 


两 个 偏 导 计算 的 结果 为 60a+20c-134=0 和 20a+8c-48=0， 是 具有 两 个 未 知 量 的 二 元 一 
次 方程 组 ， 通 过 解 该 方程 组 ， 得 到 a=1.4，c=2.5。 与 Excel 计算 结果 一 致 。 


设置 抬 和 作 枚 式 丽 二 攻 二 
ET 
二 和 多 直人 和 /加 从 分析 大 
| se 3 
| am 
gt | EE] 宇多 
| enw 
加 esaxe@ pe 
回 emo 
回 esarsm 
攻关 队 
页 犁 田代 到 ) 


自主 义 扣 ) 


© 显示 公式 人) 
加 明示 + 平方 什 G) 


记得 


图 7.3 “设置 趋势 线 格 式 ” 对 话 框 
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2. 多 元 线性 回归 


简单 线性 回归 因 其 只 有 一 个 自 变量 ， 在 实际 应 用 中 这 种 情况 非常 少见 。 实 际 上 ， 一 种 
现象 或 一 个 事物 往往 是 与 多 个 因素 相 联 系 的 ， 如 房屋 的 价值 与 房屋 本 身 的 地 理 位 置 、 面 积 、 
品质 有 关 ， 还 与 当前 的 社会 和 经 济 政策 、 需 求 、 基 础 建设 等 有 关 ; 又 如 ， 人 的 身高 ， 与 遗 
传 因素 、 先 天 条 件 、 后 天 生活 环境 、 营 养 、 锻 炼 等 都 有 密切 联系 。 由 多 个 自 变量 的 最 优 组 
合共 同 来 预测 或 估计 因 变 量 ， 结 果 更 有 效 、 更 准确 ， 更 符合 实际 需要 。 有 了 两 个 或 两 个 以 上 
的 自 变量 的 线性 回归 称 为 多 元 线性 回归 (Multivariable Linear Regression)。 

式 (7.1) 是 一 个 多 元 线性 回归 方程 的 通 式 ， 其 中 ，x,x%,…,%,…,x, 是 自 变量 ，y 是 因 变 
量 ，a;,a0 ma 和 c 是 常量 ，a,q,,q…,q,…,4, 又 称 为 回归 系数 。 oa 为 
2 确定 时 ， 半 每 增加 一 个 单位 对 的 效应 ， 即 半 对 7 的 偏 回 归 系数 。 

进行 多 元 线性 回归 分 析 时 ， 应 首先 考虑 自 变 量 的 选择 ， 以 确保 建立 的 回归 方程 具有 较 
好 的 解释 能 力 和 预测 效果 。 在 选择 自 变 量 时 ， 主 要 应 该 考虑 如 下 因素 。 

(1) 自 变量 对 因 变 量 的 影响 应 该 是 显著 的 ， 而 自 变 量 应 不 受 因 变 量 的 影响 ， 即 要 求 自 
变量 是 外 生性 的 (Exogeneity)。 

(2) 自 变 量 与 因 变 量 之 间 必须 具有 线性 相关 性 。 

(3) 各 个 自 变量 之 间 必 须 具有 一 定 的 互 斥 性 ， 或 者 说 ， 自 变量 之 间 的 相关 程度 不 应 高 
于 自 变量 与 因 变 量 之 间 的 相关 程度 ， 否 则 ， 将 影响 参数 估计 的 准确 性 ， 使 得 参数 的 标准 差 
增加 ， 即 造成 多 元 共 线 性 (Multicollinearity)。 

多 元 线性 回归 方程 的 参数 估计 ， 同 简单 线性 回归 方程 一 样 ， 也 是 在 要 求 因 变量 的 计算 
输出 与 实际 输出 的 误差 平方 和 最 小 时 ， 使 用 最 小 二 乘法 求解 a,a,,a,,…,a,,…,a, 和 c 的 值 。 

下 面 使 用 MS Excel 和 Weka 软件 进行 多 元 线性 回归 建 模 。 


3. 实验 : 使 用 Excel 和 Weka 进行 多 元 线性 回归 


MS Excel 提供 了 一 个 线性 回归 分 析 工 具 LINEST 函数 ， 能 够 用 它 执 行 简单 和 多 元 线性 
归 分 析 。 

【 例 7.2】 使 用 Excel 帮助 文档 中 的 LINEST 函数 指南 实例 数据 集 一 一 “办 公 楼 ” 数 
据 集 ( 如 表 7.2 所 示 ) 和 Excel 的 LINEST 函数 ， 建 立 多 元 线性 回归 方程 ， 在 对 模型 进行 评估 
后 ， 估 计 出 某 个 未 知 价值 的 办 公 楼 的 价值 。 

表 7.2 中 的 数据 集 有 11 个 实例 , 每 个 实例 数据 描述 了 一 座 办 公 楼 的 Floor Space( 底 层面 
积 )、Number of Offices( 办 公 室 个 数 )、Number of Entrances( 入 口 个 数 )、Building Age( 大 楼 使 
用 年 数 ) 和 Value( 价 值 )。 开 发 商 希 望 根据 这 些 实例 应 用 线性 回归 分 析 来 估计 出 某 个 不 知道 价 
值 的 办 公 楼 的 价值 。 

下 面 将 Floor space、Number of Offices、Number of Entrances 和 Building Age 作为 自 变 
量 , 分 别 用 x1、x2、xs 和 x 表示，Value 作为 因 变 量 ， 使 用 LINEST 函数 进行 多 元 线性 回归 
分 析 ， 建 立 能 够 估计 办 公 楼 价值 的 回归 模型 。 执 行 线性 回归 分 析 的 步骤 如 下 。 

(1) 新 建 一 个 Excel 工作 短 ， 将 表 7.2 中 的 数据 复制 到 Al 到 E12 区 域 。 

(2) LINEST 函数 的 输出 为 多 个 ,需要 显示 在 至 少 n 列 的 区 域 中 ， 其 中 为 回归 变量 的 
总 数 ， 本 例 中 n=5。 用 鼠标 选中 至 少 5 列 的 空白 区 域 ， 作 为 回归 分 析 输 出 区 域 。 
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(3) 执行 回归 ， 在 Excel 公式 栏 中 输入 下 式 : 
=ILinest(E2:El12,A2:D12,TRUE,TRUE) 
其 中 ， 第 一 个 函数 参数 E2:E12 是 因 变 量 所 在 的 单元 格 区 域 ; 第 二 个 参数 A2:D12 为 自 变量 
所 在 的 单元 格 区 域 ， 第 三 个 参数 用 来 设置 回归 方程 常数 项 的 取 值 ， 若 该 参数 设置 为 TRUE 
或 默认 ， 表 示 正 常 计算 回归 方程 中 的 常数 项 ， 否 则 ， 若 参数 设置 为 FALSE， 则 回归 方程 中 
的 常数 项 被 置 为 0， 如 图 7.4 所 示 ; 第 四 个 参数 用 来 设置 LINEST 函数 的 返回 值 状态 ， 若 该 
参数 设置 为 TRUE 或 默认 ， 表 示 希 望 函数 除了 正常 返回 回归 方程 系数 和 常数 项 之 外 ， 还 给 
出 检查 回归 方程 性 能 的 回归 统计 值 ， 否 则 ， 若 参数 设置 为 FALSE， 则 仅 返 回回 归 方程 的 系 
数 和 常数 项 。 
(4) 按 EntertCtrl+Shift 组 合 键 ， 此 时 回归 分 析 的 输出 显示 在 Excel 工作 短 被 选中 的 区 
域 中 。 


表 7.2 Excel 帮助 文档 中 的 办 公 楼 数据 集 


Space0x Offices0a Value 
2310 2 | :2 | am | no 
2333 2 144000 
2356 3 151000 
2379 3 150000 
2402 2 139000 
2425 4 169000 
2448 2 | 5 | % | po 
2471 142900 
2494 3 163000 
2517 4 169000 
2540 2 149000 


CT i 
国 | 砷 下 b 等 于 0 请 吾 几 值 , 百 到 y = mm 


Eb 正常 计 


aE el ll | 
NESBESSSHs ls 
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图 7.4 输入 LINEST 函数 参数 
(5) 查看 回归 分 析 的 输出 结果 (如 表 7.3 所 示 )。 其 中 第 一 行为 回归 方程 系数 。 从 左 到 
右 分 别 是 Xa、x3、x2、X1 的 系数 和 常数 项 c 的 值 ， 若 LINEST 函数 的 第 三 个 参数 设置 为 
FALSE, 则 仅 返 回 第 一 行 的 值 , 若 参 数 设置 为 TRUE 或 默认 , 则 返回 第 二 行 到 第 五 行 的 值 。 
其 中 ， 第 二 行 的 值 为 每 个 回归 系数 和 常数 项 的 标准 差 值 ， 其 中 若 LINEST 的 第 二 个 参数 设 
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置 为 FALSE， 则 常数 项 的 标准 差 显 示 “#N/A”; 第 三 行 第 一 个 值 为 性 判定 系数 (Coefficient 
of Determination), 第 二 个 值 为 因 变 量 y 的 估计 值 的 标准 差 ; 第 四 行 的 两 个 值 分 别 为 F 统计 
值 和 qr 自由 度 值 ， 第 五 行 的 两 个 值 分 别 为 方程 的 回归 平方 和 与 残 差 平方 和 。 


表 7.3 ”办公 楼 数据 集 回归 分 析 的 统计 值 


—234.2371645 
13.26801148 
0.996747993 
459.7536742 
1732393319 


(6) 根据 回归 分 析 的 输出 结果 ， 建 立 回 归 模 型 和 对 模型 进行 评估 。 根 据 结果 中 第 一 行 
的 值 ， 建 立 的 回归 方程 如 式 7.6 所 示 。 其 中 的 、x,、 芒 、 坟 分 别 为 地 层面 积 、 办 公 室 个 
数 、 入 口 个 数 和 使 用 年 数 。 

Value = 27.64x +12529.77x, + 2553.21x, + (-234.24)x, + 52317.83 (7.6) 

现在 使 用 ?判定 系数 和 下 统计 值 等 对 模型 进行 评估 。? 为 y 的 估计 值 与 实际 值 之 比 
表达 了 因 变 量 的 估计 值 与 实际 值 之 间 的 相关 程度 ， 即 回归 直线 对 所 给 实例 值 的 拟 合 程 度 ， 
称 为 拟 合 优 度 (Goodness of Fit)， 范 围 在 [0,1] 之 间 。 若 ”为 1， 则 表示 估计 值 与 实际 值 之 间 
有 很 好 的 相关 性 ， 它 们 之 间 没 有 差别 。 反 之 ， 若 判定 系数 为 0， 则 回归 方程 不 能 用 来 预测 
值 。 本 例 中 ， 产 的 值 为 0.9967， 表 示 因 变量 的 估计 值 与 实际 值 之 间 的 相关 程度 很 高 。 然 而 ， 
需要 注意 的 是 ， 该 判定 系数 是 使 用 训练 实例 而 不 是 检验 实例 计算 出 来 的 ， 判 定 该 回归 方程 
具有 良好 的 估价 预测 性 能 ， 还 必须 谨慎 。 下 面 还 可 以 通过 F 统计 值 来 确定 具有 如 此 高 的 
记 值 的 结果 是 偶然 发 生 的 可 能 性 。 

使 用 第 四 行 的 两 个 值 F 统计 值 和 qr 自由 度 值 ， 可 以 判断 因 变量 和 自 变 量 之 间 所 观察 到 
的 关系 是 否 是 偶尔 发 生 的 ， 即 判断 产 是 否 具有 显著 性 。 要 解释 下 值 ， 需 要 使 用 dy/ 查看 下 分 

邻近 值 表 。 方 法 是 ， 在 任何 一 本 统计 学 的 教材 中 找到 下 分 布 临界 值 表 。 在 查 表 前 需要 做 
两 件 事 ， 一 是 确定 两 个 自由 度 值 。 两 个 自由 度 分 别 对 应 下 分 布 临界 值 表 中 的 vi 和 v,， 其 中 
1 是 自 变 量 的 总 数 ， 本 例 中 w=4; v% 就 是 4 值 ， 表 示 训 练 实例 总 数 与 所 有 变量 (包括 自 变量 
和 因 变 量 ) 总 数 的 差 ， 本 例 中 w=(11-5)=6， 即 为 df 值 。 二 是 选择 wx 值 。w 值 被 称 为 显著 性 水 
平 (Significance Level)， 表 示 得 出 如 下 相关 性 结论 错误 的 概率 。 

假设 事实 上 在 自 变 量 和 因 变 量 之 间 不 存在 相关 性 , 但 选用 11 个 办 公 楼 作为 小 样本 进行 
统计 分 析 却 导致 很 强 的 相关 性 。 

现在 选择 a 值 为 0.05， 再 根据 w=4 和 w=6 的 值 ， 在 下 分 布 临界 值 表 中 查 到 下 临界 值 
为 4.53， 将 该 值 与 LINEST 函数 返回 的 下 统计 值 459.753674 进行 比较 ， 因 下 统计 值 远 大 
于 查 表 所 得 的 4.53， 说 明 偶然 出 现 高 值 的 可 能 性 非常 小 ， 即 因 变 量 与 自 变 量 之 间 没 有 关 
系 这 一 假设 不 成 立 。 

另外 ， 除 了 使 用 wg、vi 和 vy 查看 下 分 布 临界 值 表 ， 找 到 下 值 ， 与 统计 值 进行 比较 ， 
来 判断 偶然 出 现 高 值 的 可 能 性 之 外 ，Excel 还 提供 了 一 个 函数 一 一 FDIST 函数 ， 可 以 用 
它 来 计算 偶然 出 现 高 F 值 的 概率 ， 其 语法 为 FDIST(F,vi,v2)。 本 例 中 FDIST 函数 的 格式 为 


BD ,4 
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FDIST(459.753674,4,6)， 其 返回 值 为 1.37E-7， 是 一 个 极 小 的 概率 值 ， 说 明 结 论 与 查 表 是 一 

样 的 ， 该 回归 方程 中 因 变 量 与 自 变 量 的 强 线性 相关 性 不 是 偶然 发 生 的 ， 该 方程 可 用 于 估计 
办 公 楼 的 价值 。 

(7) 现在 ， 开 发 商 可 以 使 用 回归 方程 预 估 办 公 楼 的 价值 了 。 设 有 一 座 未 知 价值 的 办 公 

楼 ， 面 积 为 2500、3 个 办 公 室 、2 个 入 口 ， 已 使 用 25 年 ， 则 其 估计 价值 由 式 (7.7) 计 算 所 
得 为 158257.56。 

y=27.64*2500+12529.77*3+2553.21*2-234.24*25+52317.83=158257.56 (7.7) 

下 面 使 用 同样 的 数据 集 ， 应 用 Weka 软件 进行 多 元 线性 回归 分 析 ， 并 比较 两 次 分 析 的 


结果 。 
【 例 7.3】 使 用 表 7.2 中 的 办 公 楼 数据 集 和 Weka 软件 ， 建 立 多 元 线性 回归 模型 ， 为 
某 办 公 楼 估 值 。 

(1) 准备 和 加 载 数 据 。 将 例 7.2 中 的 数据 集 存 为 .csv 格式 文件 。 启 动 Weka， 选 择 
Explorer， 在 Weka Explorer 窗口 中 切换 到 Preprocess 选项 卡 ， 单 击 Open File 按钮 并 选择 数 
据 集 所 在 的 .csv 文件 ， 加 载 数据 集 。 

(2) 切换 到 Classify 选项 卡 ， 在 Classifier 窗口 中 单 击 Choose 按钮 ， 在 出 现 的 窗口 中 展 
开 functions 分 支 ， 选 择 LinearRegression 选项 ， 如 图 7.5 所 示 。 注 意 ， 在 functions 中 还 有 
一 个 SimpleLinear-Regression 选项 ， 如 图 7.5 所 示 ， 它 为 简单 线性 回归 ， 不 适用 本 例 。 单 击 
Close 按钮 确定 。 

(3) 在 Test options 面板 中 ， 选 择 Use training set 选项 ， 使 用 训练 集 作为 检验 集 。 

(4) 单 击 Test options 面板 下 方 的 下 拉 按 钮 ， 选 择 因 变量 为 Value， 单 击 Start 按钮 ， 开 
始 回归 模型 的 训练 。 

(5) Classifier output 对 话 框 如 图 7.6 所 示 。 从 输出 结果 中 读 出 线性 回归 方程 的 系数 ， 建 
立 回归 模型 , 观察 发 现 其 与 式 (7.3) 完 全 相同 , 并 且 相 关系 数 Correlation coefficient 为 0.9984， 
说 明 因 变 量 与 自 变 量 之 间 有 很 强 的 相关 性 。 
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(6) 要 估计 未 知 价值 的 办 公 楼 的 价值 , 可 将 这 些 办 公 楼 的 实例 数据 放 到 另 一 个 .csv 文件 
中 ， 其 中 Value 列 为 空 。 将 这 个 .csv 文件 作为 检验 集 ， 输 入 模型 进行 因 变 量 的 估 值 。 注 意 : 
选择 test options 面板 中 的 Supplied test set 选项 作为 检验 方法 。 为 了 能 够 在 输出 结果 中 看 到 
估 值 , 则 单 击 test options 面板 中 的 more options 按钮 ,打开 如 图 7.7 所 示 的 分 类 器 评估 选项 
对 话 框 ， 选 中 Output predictions 复 选 框 ， 使 得 在 输出 结果 中 显示 作为 检验 集 实例 的 办 公 楼 
的 预测 价值 。 


Classifier output 


assifiers. functions.LinearRegression -S 0 -R 1.05-8 
ding 


Veloe 
ese soderevaldere on sanindag dica 
g classifier evaluation options El 


w= Classifier nodel (full training set) 一 


Linear Regressicn Model 


Value = 


25s: ancea + 园 Stere predictions for visualization 
-234.2372 * Mge + L 
52317.6306 园 Pasput Fredicticna 


Tine taken to build model: 0.03 seconds Qutput additional attributes 


-Evaluation cn training sec == ]cost-sensitive evaluation | Set 
2 Randon sced for XYal / % Split 1 


Fn pe Preserve order {or % Split 
Re 716.8197 
Re 4.8363 4 
Re ror s.7026 8 
Total Nurber of Inarances 1 ] 
7.6 ”Weka 的 线性 回归 分 析 输 出 结果 7.7 ”选择 在 输出 结果 中 显示 预测 值 


(7) 单 击 Start 按钮 ， 开 始 回归 模型 训练 和 检验 ， 得 到 未 知 价值 实例 的 预 估价 值 为 
158261.096， 结 果 如 图 7.8 所 示 ， 与 使 用 Excel 的 LINEST 函数 的 预 估 值 基本 相同 。 


=== Predictions on test split === 


insté, actual, predicted, error 
1 ?2 158261.096 


图 7.8 ” 预 估 价值 结果 


以 上 实验 分 别 使 用 了 两 种 工具 Excel 和 Weka 对 办 公 楼 数据 集 进 行 了 多 元 线性 回归 分 
析 ， 建 立 的 回归 方程 是 完全 相同 的 ， 并 对 未 知 价值 的 办 公 楼 的 价值 进行 了 预 佑 ， 预 估价 值 
基本 一 样 。 

建立 回归 模型 的 目的 除了 以 上 对 未 知 值 的 预测 之 外 ， 还 有 一 个 重要 目的 是 发 现 知识 。 
观察 回归 模型 的 系数 可 以 发 现 ， 对 办 公 楼 价值 有 正面 贡献 的 因素 有 面积 (Space)、 办 公 室 个 
数 (Offices) 和 入 口 个 数 (Entrances) 三 个 自 变 量 ， 而 使 用 年 数 (Age) 为 负面 贡献 ， 说 明 楼 越 旧 ， 
价值 越 低 ， 这 个 结论 与 我 们 的 常识 一 致 ， 所 以 没有 实际 价值 。 那 么 其 他 三 个 正面 贡献 的 属 
性 ， 对 于 最 终 楼 价 的 影响 是 否 有 区 别 呢 ? 可 以 将 (Age) 属 性 从 训练 集中 删除 ， 由 其 他 属性 作 
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为 三 个 自 变量 进行 回归 模型 训练 ,输出 结果 如 图 7.9 所 示 , 可 以 看 到 Space 属性 被 Weka 自 
动 删除 了 ， 这 是 因为 Weka 能 够 使 用 疡 判断 在 统计 上 对 模型 的 正确 性 没有 贡献 的 那些 自 变 
量 , 并 忽略 它们 。 所 以 从 这 点 可 以 看 出 ，Space 对 楼 房 的 价值 影响 是 非常 小 的 ， 这 是 个 有 价 


值 的 发 现 ， 与 我 们 的 常识 不 同 。 


Classifier output 


Value = 


104904.9587 


一 - Summary -一 


Mean absolute error 


Correlation coefficient 


Root mean squared error 
Relative absolute error 
Root relative aquared error 
Toral Number of Instances 


Linear Regression Model 


12905.7851 * Offices + 
4487.6033 * Entrances + 


Time taken to build model: 0.02 seconds 


一 - Evaluation on training set =—= 


0.9097 

4491.5101 

5219.6588 
45.4789 二 
41.5248 二 
11 


7.9 


在 Excel 中 可 使 用 t 统计 值 来 检验 自 变 量 对 于 因 变 量 的 影响 的 显著 性 。 使 用 表 7.3 中 的 


回 


归 分 析 统 计量 中 的 第 一 行 回归 系数 和 第 二 行 的 回归 系数 标准 差 值 ， 计 算 每 个 自 变量 的 t 


统计 值 的 绝对 值 , 得 到 ,=5.1 ,fogees =31.3 ，tewwroees =4.8 和 ts。 =17.7。 使 用 a=0.05, vi=4 
和 w=6 查看 t 分 布 临界 值 表 ， 发 现 t 临 界 值 为 2.447。 该 临界 值 还 可 使 用 Excel 的 TINV 函 
数 计算 ， 格 式 为 TINV(0.05，6)= 2.447。 将 每 个 自 变量 的 t 统计 值 的 绝对 值 与 2.447 比较 ， 
t 统 计 值 的 绝对 值 都 大 于 临界 值 , 则 说 明 回归 模型 中 每 个 自 变量 对 因 变 量 的 影响 都 具有 显著 


性 ， 因 此 ， 
Age 更 为 显著 。 


7.1.2 非 线性 回归 


在 很 多 回 


归 ， 从 而 使 用 线性 回归 分 析 解 决 非 线 性 回 


回归 方程 中 的 所 有 自 变 量 都 可 以 用 来 预测 办 公 楼 的 价值 ， 只 是 其 中 Offices 和 


归 分 析 的 实际 应 用 中 ， 因 变量 与 自 变量 之 间 的 关系 并 不 都 是 线性 的 ， 一 般 需 
要 使 用 非 线性 回归 分 析 。 其 中 一 些 非 线性 回 


归 分 析 可 以 通过 变量 代 换 ， 将 其 转化 为 线性 回 
归 问 题 。 还 有 一 些 非 线性 回归 分 析 无 法 通过 数学 


变化 进行 转换 ， 必 须 直接 使 用 非 线 性 分 析 方 法 解决 。 
线性 和 非 线性 回归 分 析 都 是 使 用 最 小 二 乘法 进行 回归 分 析 ， 区 别 只 是 分 析 的 问题 中 变 


量 之 间 的 关系 呈 线 性 的 和 非 线性 的 。 


非 线性 回归 分 析 模 型 有 多 种 ， 选 择 哪 种 模型 解决 实际 问题 ， 需 要 依靠 专业 知识 和 经 验 。 


其 中 常见 的 非 线性 回归 分 析 模 型 有 : 指数 曲线 方程 、 对 数 曲线 方程 、 寡 函数 


曲线 方程 、 抛 


物 线 曲线 方程 、 双 曲线 方程 、S 形 曲线 方程 与 Logistic 曲线 方程 等 。 
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1. 常见 的 非 线 性 回归 方程 

常见 的 非 线性 回归 方程 如 下 。 

(1) 指数 函数 : y= ae 或 了 = ab。 

(2) 对 数 函 数 : y=a+tblnx。 

(3) 寡 函 数 曲线 方程 y= ax 。 

(4) 抛物 线 函 数 : y=atbx+cx?。 

(5) 双 曲 线 函 数 : y= 或 y= 或 y= 1 


at+bx 等 atbx 
(6) S 形 曲线 函数 (又 称 Logistic 函数 ): 2 


1+ae 


a+bx 


2. 非 线性 回归 分 析 的 步骤 


(1) 选择 非 线性 回归 方程 。 通 过 研究 变量 之 间 的 在 实际 问题 中 的 背景 关系 ， 或 通过 散 
点 图 ， 选 择 适 当 的 非 线 性 回归 方程 。 

(2) 非 线性 回归 方程 一 般 进 行 参 数 估计 较为 困难 ， 因 此 ， 往 往 通 过 变量 置换 ， 将 非 线 
性 回归 转换 为 线性 回归 ， 利 用 线性 回归 方法 进行 参数 估计 。 如 式 (7.8) 为 S 形 函数 变换 为 线 
性 方程 的 方法 。 


令 wn]. ine 
了 


则 
y'=a'—bx (7.8) 
(3) 评估 非 线 性 模型 。 通 过 研究 变量 之 间 的 背景 关系 ， 或 通过 散 点 图 观察 变量 之 间 的 
非 线性 关系 。 往 往 会 发 现 可 能 有 几 种 接近 的 曲线 关系 同时 存在 ， 选 择 哪个 非 线 性 方程 可 能 
都 能 解决 实际 问题 ， 但 是 哪个 方程 最 优 需 要 通过 判定 系数 (六 进行 最 优 拟 合 的 判定 。 


3. 对 数 回归 模型 的 应 用 


使 用 信用 卡 账单 促销 数据 集 进行 多 元 线性 回归 分 析 ， 建 立 了 一 个 自 变量 为 Credit Card 
Insurance 和 Sex， 因 变量 为 Life Insurance Promotion 的 多 元 线性 回归 方程 ， 如 式 (7.9) 所 示 。 
Life Insurance Promotion = 0.5909Credit Card Insurance — 0.5455Sex + 0.7727 (7.9) 
这 个 回归 方程 中 的 因 变量 的 取 值 为 Yes 和 No， 对 它们 进行 数值 化 变换 为 0 和 1。 式 
(7.9) 中 的 线性 方程 在 实际 应 用 中 ， 其 因 变 量 的 值 在 [0.1] 区 间 内 变化 ， 接 近 0 的 值 ， 预 测 该 
客户 将 不 接受 寿险 促销 ; 接近 1 的 值 ， 认 为 他 可 能 接受 寿险 促销 。 然 而 ， 式 (7.9) 不 能 表达 
因 变 量 的 值 被 限制 在 [0,1] 区 间 内 ， 因 为 线性 回归 分 析 所 产生 的 是 一 条 在 正 负 方 向 上 没有 限 
制 的 拟 合 直 线 。 希 望 通过 线性 回归 方程 直接 观测 到 因 变 量 的 取 值 在 [0.1] 区 间 内 ， 以 表达 解 
决 因 变 量 二 元 取 值 的 问题 ， 需 要 对 线性 模型 进行 变换 ， 使 之 输出 属性 的 值 直 接 在 方程 中 就 
被 限制 在 [0.1] 区 间 内 。 
对 线性 模型 进行 变换 使 其 因 变量 取 值 限制 在 [0.1] 区 间 内 的 方法 有 多 种 ， 这 里 仅 讨论 对 
数 模 型 。 
对 数 回归 (Logistic Regression) 是 一 种 非 线 性 回归 技术 。 对 数 回 归 不 是 直接 预测 因 变量 的 
值 ， 而 是 估计 因 变 量 取 给 定 值 的 概率 。 它 是 对 因 变 量 发 生 某 事件 的 条 件 概率 进行 建 模 ， 从 
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而 预测 因 变 量 的 线性 函数 ， 因 其 回归 方程 表达 形式 为 线性 的 ， 所 以 又 被 称 为 广义 线性 回归 
模型 中 的 一 种 。 对 数 回归 方程 如 下 : 

| | -arte (7.10) 
1-—p(y=1|x) 

其 中 : X=, 加 ,各 。 4X 十 C= 二 和 十 gy 各 十 各 十 … 十 dX +C。 p(y=1|x) 为 条 件 概 率 
(Conditional Probability)， 表 示 y 取 值 为 1 的 事件 发 生 的 条 件 频率 ， 这 个 概率 通常 被 转换 为 
一 个 概率 比 p(y=1|)/Q4 一 p(y=1|)， 并 用 对 数 表示 ， 以 避免 预测 概率 值 超 出 [0,1] 区 间 。 
In(p(y=1|x)/(1 一 p(y=1|x))) 通 常 写成 logit(p) 的 形式 。 
对 数 回归 模型 的 输出 变量 必须 为 二 元 分 类 类 型 变量 , 其 数值 化 变换 为 0 和 1 两 个 取 值 。 
对 数 回归 分 析 计 算出 输入 实例 取 0 和 1 的 概率 ， 拟 合 这 些 概率 的 模型 就 是 对 数 回归 模型 。 
其 中 通过 变换 , 得 出 计算 p(y=1|x) 条 件 概率 的 公式 如 式 (7.11) 所 示 , 该 函数 又 称 为 Logistic 
函数 (S 型 函数 )。 图 7.10 为 该 函数 的 图 形 表示 ， 它 是 一 条 限制 在 [0.1] 区 间 内 的 S 形 曲 线 。 


p=1)= Te 0.1D) 
针对 信用 卡 账单 促销 数据 集 的 回归 分 析 问 题 , 设 因 变量 Life Insurance Promotion = YES 
为 y=1 事件 , Life Insurance Promotion = NO 为 y=0 事件 , 自 变量 选择 Credit Card Insurance、 
Sex 和 Age 三 个 属性 。 回 归 方 程 可 写成 式 (7.12) 的 对 数 回归 方程 的 形式 。 
叫 py=1|») 
1-p(y=1|x) 


| =a, xCredit Card Insurance + a, xSex +a, xAget+c {7:12) 


-6 -4 过 0 2 4 6 


图 7.10 Logistic 函数 


7.1.3 树 回 归 


上 述 线性 回归 和 非 线性 回归 都 是 一 种 全 局 回归 模型 ， 是 在 进行 回归 分 析 之 前 ， 就 设 定 
了 一 个 模型 ， 拟 合 数 据 得 出 参数 估计 。 然 而 ， 在 解决 实际 问题 时 ， 现 实 问题 可 能 会 很 复杂 ， 
不 能 直接 判断 出 使 用 哪 种 模型 ， 甚 至 不 能 判断 出 使 用 线性 还 是 非 线 性 模型 。 此 时 ， 采 取 一 
种 称 为 树 回 归 (Tree Regression) 的 回归 分 析 方 法 可 解决 此 类 问题 。 它 实际 上 是 使 用 称 之 为 回 
归 树 (Regression Tree) 的 决策 树 结构 ， 通 过 构建 决策 节点 把 数据 切 分 成 区 域 ， 然 后 在 局 部 区 
域内 进行 回归 拟 合 。 
本 归 树 本 质 上 就 是 一 棵 决策 树 ， 只 是 其 叶 节 点 是 数值 而 不 是 分 类 类 型 值 。 一 个 叶 节点 
的 值 是 经 过 树 到 达 叶 节点 的 所 有 实例 的 输出 属性 的 平均 值 。 回 归 树 中 最 著名 的 就 是 分 类 回 
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归 树 (Classification And Regression Tree，CART)， 它 能 够 针对 复杂 的 、 非 线性 问题 建 模 。 
CART 是 根据 数据 特征 进行 二 元 划分 来 创建 树 。 与 决策 树 的 划分 度量 使 用 信息 量 值 ， 树 的 
节点 是 离散 阔 值 不 同 ，CART 使 用 计算 分 割 数据 的 方差 作为 度量 ， 树 的 节点 使 用 使 得 方差 
最 小 的 那个 连续 特征 值 ， 即 方差 越 小 的 那个 节点 越 能 表达 那个 特征 的 数据 。 

CART 的 缺点 是 结果 的 解释 困难 。 为 此 ， 回 归 树 经 常 同 线性 回归 方程 结合 起 来 形成 模 
型 树 (Model Trees)。 与 回归 树 的 不 同 之 处 是 ， 模 型 树 的 叶 节 点 表示 的 是 一 个 分 段 的 线性 回 
归 方程 而 不 是 一 些 特征 的 平均 属性 值 。 通 过 将 线性 回归 与 回归 树 相 结合 ， 使 得 达到 准确 结 
果 所 需要 的 树 的 层次 更 少 了 ， 所 以 能 够 简化 回归 树 结构 。 图 7.11 给 出 了 一 个 能 够 使 用 分 段 
回归 方程 描述 的 问题 。 从 图 中 明显 看 出 有 两 条 拟 合 直线 ， 即 以 x 坐标 小 于 5.0 和 大 于 等 于 
5.0 分 成 的 两 个 线段 。 此 时 ， 可 以 使 用 有 两 个 叶子 节点 的 模型 树 ， 如 图 7.12 所 示 。 每 个 节 
点 为 一 个 线性 回归 模型 ， 来 完成 图 7.11 中 的 数据 的 线性 拟 合 。 
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全 系列 ] 

图 系列 2 
一 一 线性 (系列 1) 
一 一 线性 (系列 2) 


7.11 具有 分 段 线性 特征 的 数据 


<5.0 >5.0 


LRM LRM 
y= 0.1143x +2.6857 =7.1x-32.9 


图 7.12 具有 两 个 叶子 节点 的 模型 树 


7.2。 贝 叶 斯 分 析 


贝 叶 斯 分 析 (Bayesian Analysis) 是 一 种 参数 估计 方法 。 它 将 关于 未 知 参 数 的 先 验 信息 与 
样本 信息 相 结 合 ， 根 据 贝 叶 斯 公式 ， 得 出 后 验 信 息 ， 然 后 根据 后 验 信息 去 推断 未 知 参数 。 
贝 叶 斯 分 析 方 法 在 决策 支持 、 风 险 评 估 、 模 式 识 别 等 方面 都 得 到 了 广泛 的 应 用 ， 被 用 来 建 
立 分 类 模型 ， 就 是 著名 的 贝 叶 斯 分 类 器 。 

贝 叶 斯 分 类 器 (Bayes Classifier) 是 一 种 简单 ， 但 功能 强大 的 有 指导 分 类 技术 。 模 型 假定 
所 有 输入 属性 的 重要 性 相等 ， 且 彼此 是 独立 的 。 尽 管 这 些 假定 很 可 能 是 假 的 ， 但 贝 叶 斯 分 
类 器 实际 上 仍然 可 以 工作 得 很 好 。 分 类 器 是 基于 贝 叶 斯 定理 (Bayes Theorem) 的 , 定义 如 下 : 
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P(EIH)xP(H) 
P(E) 
其 中 : 互 为 要 检验 的 假设 ;EE 为 与 假设 相关 的 数据 样本 。 
从 分 类 的 角度 考察 式 (7.13)， 假 设 五 就 是 因 变量 ， 代 表 着 预测 类 ;数据 样本 E 是 输入 
实例 属性 值 的 集合 ; P(E | 如 是 给 定数 据 样本 五 时 ,假设 玖 为 真 的 条 件 概率 ; PC 为 先 验 概 
率 (Priori Probability)， 表 示 在 任何 数据 样本 EE 出 现 之 前 假设 的 概率 。 条 件 概率 和 先 验 概率 
可 以 通过 训练 数据 计算 出 来 。 下 面 通过 一 个 例子 来 了 解 贝 叶 斯 分 类 器 。 
【 例 7.4】 基于 信用 卡 账单 促销 数据 集 ( 表 7.4 所 示 )， 应 用 贝 叶 斯 分 类 器 ， 判断 一 个 新 
实例 的 性 别 Sex。 该 实例 的 输入 属性 值 为 Magazine Promotion = Yes, Watch Promotion = Yes， 
Life Insurance Promotion = No 以 及 Credit Card Insurance = No。 


1. 使 用 贝 叶 斯 定理 解决 例 7.4 中 的 问题 


(1) 找 出 先 验 信息 。 要 判断 新 实例 的 性 别 ， 则 将 Sex 作为 分 类 器 的 输出 属性 。 表 7.5 依 
据 表 7.4， 通 过 类 实例 个 数 与 实例 总 数 之 比 ， 计 算出 每 个 输入 属性 的 输出 属性 值 的 分 布 。 

(2) 确定 要 检验 的 假设 。 本 例 中 要 检验 的 假设 环 有 两 个 : 客户 Sex 为 Male; 客户 Sex 
为 Female 。 要 判断 新 客户 的 性 别 Sex， 即 比较 两 个 概率 值 P(Sex =Male|E) 和 
P(Sex =Female|E) 的 大 小 ， 概 率 值 大 的 ， 其 假设 玉成 立 。 

(3) 要 计算 P(Sex = Male|E) 和 P(Sex =Female|E) 两 个 概率 值 , 必须 首先 计算 贝 叶 斯 公 
式 ( 式 (7.13)) 中 的 条 件 概率 P(E | 力 、 先 验 概率 P( 丰 和 P(E)， 即 计算 P(E | Sex = Male )、P(E 
| Sex = Female )、P(Sex = Male )、P(Sex = Female ) 和 Sex=Male 及 Sex=Female 的 样本 数据 


P(HI|E)= (7.13) 


出 现 的 概率 P(E)。 其 中 ， 可 认为 样本 集中 男女 客户 实例 出 现 的 比例 是 相同 的 ， 则 两 个 P(E) 
值 是 相等 的 。 下 面 计算 其 他 4 个 概率 值 。 
表 7.4 用 于 贝 叶 斯 分 类 器 的 数据 集 

Magazine Promotion|lWatch Promotion Credit Card Insurance Sex 
Yes No No Male 
Yes Yes Yes Female 
No No No Male 
Yes Yes Yes Male 
Yes No Yes No Female 
No No No Female 
Yes Yes Yes es Male 
No No No No Male 
Yes No No No Male 
Yes Yes Yey No Female 
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数据 挖掘 号 论 


表 7.5 属性 Sex 的 计数 和 概率 


Watch 
Promotion Promotion 


Credit Card 
Insurance 


Magazine Life Insurance 


Promotion 


Male Female Male Female 


概率 : yes/total 


概率 : no/total 


将 每 条 数据 


[| | | 
4 2 4 1 
和 人才 人 一 
4/6 2/4 4/6 1/4 


@ 计 算 P(E|Sex=Male) 和 P(Sex=Male) 


样本 的 条 件 概率 值 连 乘 ， 计 算 P(E | Sex = Male ) 概 率 值 (前 提 是 ， 假 设 数据 


样本 是 独立 )。 


中 每 条 数据 样本 的 条 件 概率 值 为 


P( Magazine Promotion = YES | Sex = Male )= 4/6 

P( Watch Promotion = YES | Sex = Male )= 2/6 

P( Life Insurance Promotion = NO | Sex = Male )= 4/6 
P( Credit Card Insurance = NO | Sex = Male )= 4/6 


则 总 的 条 件 


概率 为 


P(E | Sex = Male ) = (4/6)(2/6)(4/6)(4/6)= 8/81 


现在 计算 先 
的 情况 下 男性 客 


验 概率 P(Sex = Male)。 因 为 这 个 概率 是 在 不 知道 实例 以 前 是 否 参加 促销 的 
户 的 概率 ， 先 验 概率 可 以 简单 地 认为 是 总 体 中 男性 所 占 的 比例 ， 即 ; 


P(Sex = Male)= 6/10=3/5 
@ 计算 P(E|Sex= Female ) 和 P(Sex = Female) 


将 每 条 数据 
据 样本 是 独立 )。 


样本 的 条 件 概率 值 连 乘 ， 计 算 P(E | Sex = Female) 概 率 值 (前 提 是 ， 假 设 数 
其 中 每 条 数据 样本 的 条 件 概率 值 为 


P( Magazine Promotion = YES | Sex = Female ) = 3/4 

P( Watch Promotion = YES | Sex = Female )= 2/4 

P( Life Insurance Promotion = NO | Sex = Female ) = 1/4 
P( Credit Card Insurance = NO | Sex = Female )= 3/4 


则 总 的 条 件 


概率 为 


P(E| Sex = Female ) = (3/4)(2/4)(1/4)(3/4)= 9/128 
现在 计算 先 验 概率 P(Sex = Female)。 因 为 在 数据 集中 有 4 位 女性 ， 则 : 

P( Sex = Female )= 4/10=2/5 

(4) 根据 贝 叶 斯 公式 计算 两 个 P(H|E), 即 P(Sex = Male|E) 和 Pl(Sex =Female|E), 比 


较 两 个 概率 值 ， 


概率 值 较 大 的 假设 玉成 立 。 


P(Sex = Male |E )=(8/81)(3/5)P(E) ~ 0.0593/P(E) 
P(Sex = Female |E ) =(9/128)(2/5)P(E) ~ 0.0281 /P(E) 
在 P(E) 的 值 相同 的 情况 下 ， 因 为 0.0593 > 0.0281， 则 贝 叶 斯 分 类 器 得 出 的 结论 是 一 一 


新 实例 的 Sex 最 
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2. 使 用 Weka 贝 叶 斯 分 类 器 解决 例 7.4 中 的 问题 


(1) 准备 数据 。 将 表 7.4 中 的 数据 保存 到 一 个 “ 例 7.4.csv” 文 件 中 ， 并 将 新 实例 (其 中 
Sex 属性 值 为 空 ) 添 加 到 该 文件 的 最 后 , 并 另存 为 “ 例 7.4-test.csv ”文件 。 并 分 别 加 载 到 Weka 
中 ,分 别 另存 为 “ 例 7.4.arf” 和 “ 例 7.4-test.arf” 文 件 ,再 使 用 文本 编辑 器 打开 “ 例 7.4-testarrf” 
文件 ， 删 除 除 新 实例 外 的 其 他 实例 。 注 意 ， 不 能 破坏 .arrf 文件 的 格式 头 。 这 样 做 的 目的 是 
希望 训练 数据 集 和 检验 数据 集 的 文件 格式 头 相同 。 

(2) 加 载 训练 数据 ， 选 择 bayes 分 类 器 下 的 NaiveBayes( 朴 素 贝 叶 斯 分 类 器 ) 选 项 ， 如 
7.13 所 示 。 

(3) 设置 检验 集 为 Supplies test set， 加 载 “ 例 7.4-testarrf” 文 件 为 检验 集 ， 设 置 输出 属 
性 的 Sex， 选 中 Classifier Evaluation Options 对 话 框 中 的 Output Predictions 复 选 框 。 

(4) 执行 训练 ， 并 预测 新 实例 ， 输 出 结果 如 图 7.14 所 示 。 


Elassifier 


© BayesianLogisticReeression 
© BayesNet 


© NaiveBayesSinple 
© NaiveBayesUpdateable 
® WAODE 


| 外 functions 


由 点 trees 


[Filter... | [Reaeve filter |[ Close | 


7.13 选择 NaiveBayes 分 类 器 


NG Weka Explorer 忆 


Preprocess| Classify |Cluster| hssociate| Select attributes [Visualize| 
五 


Classifier output 


Tine taken to balld nodel: 0 seconds 


0 
Weignted Ave. ap Has say Nay man 


a = 上川 


7.14 NaiveBayes 分 类 器 预测 未 知 实例 的 输出 结果 
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数 据 榨 查 导论 
两 次 预测 新 实例 的 Sex 值 结论 相同 ， 都 为 Male。 
3. 贝 叶 斯 分 类 器 存在 的 问题 


1) 概率 为 0 问题 

贝 叶 斯 分 类 器 中 存在 着 一 个 重要 问题 就 是 若 某 个 属性 值 的 个 数 为 0， 则 会 造成 计算 每 
条 样本 数据 的 条 件 概率 的 连 乘 作为 总 的 条 件 概率 时 , 条 件 概率 为 0。 如 例 7.4 中 , 假设 Credit 
Card Insurance 的 值 为 NO 的 女性 人 数 为 0, 则 P(Credit Card Insurance = NO | Sex = Female) = 
0/4=0， 继 而 P(E| Sex = Female) = 0， 而 P(E| Sex = Female) 作为 计算 P(Sex = Female | 刀 的 
分 母 ， 为 0 造成 计算 错误 。 

解决 此 问题 的 办 法 是 : 为 每 个 要 计算 的 比率 的 分 子 和 分 母 添加 一 个 小 常数 k。 因 而 计 
算 比率 的 分 式 wa 变 成 : 


2+(OCD) 07.14) 
d+k . 


其 中 : 大 是 0 到 1 之 间 的 值 (通常 为 1); p 为 属性 可 能 值 总 数 的 等 分 。 如 果 属 性 有 两 个 
可 能 值 ， 则 p 为 0.5。 

使 用 这 种 方法 重新 计算 前 面 的 条 件 概 率 P(E | Sex = Female)。 厂 1,，p=0.5，Sex=Female 
的 条 件 概率 为 
P(E| Sex = Female ) = 


(3+0.5)(2+0.5)(1+0.5)(3+0.5) 
(4+1)(4+1)(4+1)(4+1) 


六 0.0735 


2) 缺失 数据 问题 

当 要 预测 的 未 知 实例 的 某 个 输入 属性 值 缺失 时 ， 如 例 7.4 中 的 新 实例 ， 其 中 缺失 了 
Watch Promotion 属性 值 ， 即 Magazine Promotion = Yes，Watch Promotion = Unknown，Life 
Insurance Promotion = No，Credit Card Insurance = No， 判 断 该 客户 的 性 别 Sex 值 ， 只 需 在 
计算 P(E|Sex= Male ) 和 P(E|Sex = Female ) 两 个 条 件 概率 时 ， 都 简单 地 忽略 此 属性 出 现 
的 条 件 概 率 值 即 可 ， 即 将 此 属性 概率 值 当 作 1.0。 尽 管 这 样 做 导致 两 个 条 件 概率 的 值 增 大 
了 ， 但 因为 是 同时 受到 相同 影响 ， 从 而 不 会 影响 最 终 判 断 。 


7.3 聚 类 技术 


作为 数据 挖掘 重要 技术 的 聚 类 技术 ， 使 用 了 多 种 统计 分 析 方 法 ， 包 括 基于 划分 的 聚 类 
方法 、 基 于 分 层 的 聚 类 方法 、 基 于 模型 的 聚 类 方法 等 。 在 第 2 章 ， 介 绍 了 KK-means 算法 ， 
它 是 著名 的 基于 划分 的 聚 类 方法 。 本 节 将 介绍 三 种 聚 类 技术 : 凝聚 聚 类 和 Cobweb 两 种 概 
念 分 层 聚 类 算法 ， 以 及 一 种 基于 模型 的 聚 类 方法 一 EM 算法 。 


7.3.1 分 层 聚 类 


作为 数据 挖掘 技术 中 重要 的 聚 类 技术 ， 目 前 存在 很 多 算法 ， 其 中 应 用 最 为 广泛 的 是 划 
分 聚 类 (Partition Clustering) 法 和 分 层 聚 类 (Hierarchical Clustering) 法 两 大 类 。 划分 聚 类 法 的 主 
要 思想 是 : 对 一 个 具有 个 实例 的 数据 集 ， 初始 构造 个 徐 (k < n), 然后 通过 反复 迭代 调整 
个 徐 的 成 员 ， 最 终 直 到 每 个 簇 的 成 员 稳 定 为 止 。 第 2 章 中 的 K-means 算法 就 是 一 种 被 普 
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遍 使 用 的 划分 聚 类 方法 。 分 层 聚 类 是 按照 对 数据 实例 集合 进行 层次 分 解 。 根 据 分 层 分 解 采 
用 的 策略 不 同 ， 分 层 聚 类 法 又 可 以 分 为 凝聚 聚 类 (Agglomerative Clustering) 和 分 裂 聚 类 
(Divisive Clustering)。 
凝聚 分 层 聚 类 采用 自 底 向 上 策略 。 首 先 将 每 个 对 象 作为 一 个 簇 ， 根据 某 种 相似 度 度量 
方法 对 这 些 簇 进行 合并 ， 直 到 所 有 实例 都 被 分 别 聚 类 到 某 一 个 徐 中 ， 或 满足 某 个 终止 条 件 
时 为 止 。 绝 大 多 数 分 层 聚 类 算法 属于 凝聚 聚 类 方法 ， 这 些 算法 的 区 别 一 般 是 在 簇 之 间 的 相 
似 度 度量 方法 上 有 所 不 同 。 
分 裂 分 层 聚 类 采用 自 顶 向 下 策略 (与 凝聚 分 层 聚 类 相反 的 策略 )。 首 先 将 所 有 的 数据 实 
例 放 在 一 个 簇 中 ， 再 根据 某 种 相似 度 度量 方法 逐步 将 其 细 分 为 较 小 的 徐 , 直到 达到 希望 个 
数 的 翁 ， 或 每 个 数据 实例 自 成 一 个 马 ， 或 两 个 最 接近 艇 之 间 的 距离 大 于 某 个 阔 值 。 


1. 凝聚 聚 类 


凝聚 聚 类 (Agglomerative Clustering) 是 一 种 很 受 欢迎 的 无 指导 聚 类 技术 。 与 K-means 算 
法 需要 在 聚 类 前 确定 所 形成 能 的 个 数 不 同 ， 凝 聚 聚 类 在 开始 时 假定 每 个 数据 实例 代表 它 自 
己 的 类 。 算 法 步骤 如 下 。 

(1) 开始 时 ， 将 每 个 数据 实例 放 在 不 同 的 分 类 中 。 

(2) 直到 所 有 实例 都 成 为 某 个 簇 的 一 部 分 。 

Q@ 确定 两 个 最 相似 艇 。 

@ 将 在 中 选中 的 簇 合并 为 一 个 簇 。 

(3) 选择 一 个 由 步 又 (2) 夫 代 形成 的 簇 作为 最 后 结果 。 

下 面 举例 说 明 凝 聚 聚 类 的 执行 过 程 。 

【 例 7.5】 对 于 表 7.6 所 示 的 信用 卡 账单 促销 数据 集 (部 分 )， 使 用 凝聚 聚 类 技术 ， 将 实 
例 聚 类 在 合适 的 簇 中 。 

(1) 第 一 次 迭代 ， 计 算 两 个 实例 之 间 的 相似 度 值 。 

计算 实例 间 相 似 性 值 的 方法 有 多 种 。 通 过 式 (7.15) 计 算 的 相似 性 值 显 示 在 图 7.15 中 。 


表 7.6 ”信用卡 账单 促销 数据 集 


Magazine Watch 
Life Insurance 
Promotion Promotion 


40-50K 


Instance 
Range 
11 


工 和 7, 两 个 实例 值 相同 的 属性 个 数 


(7.15) 


相似 性 值 (7,7) = 


‘7 本 


数据 授 杨 号 论 


相似 性 值 ( 7, 7,) = 1.0 

相似 性 什 7,, 7,) = 0. 2, 相似 性 值 7,, 7,) = 1.0 

相似 性 值 ( 1,, 11) = 0. 8, 相似 性 值 ( 7, 1,) = 0. 0, 相似 性 值 ( 1;, 1;) = 1.0 

相似 性 值 (7,, 万) = 0. 4, 相似 性 值 ( 1,, 7,) = 0. 8, 相似 性 值 ( 7,, 到) = 0. 2, 相似 性 值 (7,, 1,) = 1.0 

相似 性 值 ( 1;, 7,) = 0. 4, 相似 性 值 ( 1;, 1,) = 0. 6, 相似 性 值 ( 1;, 7) = 0. 2, 相似 性 值 1;, 1,) = 0.4, 相似 性 值 (7,, 1,) = 1.0 


图 7.15 第 一 次 迭代 实例 间 相 似 性 值 

(2) 第 一 次 欠 代 ， 合 并 两 个 最 相似 的 实例 到 一 个 秘 中 。 

从 图 7.15 中 可 以 看 到 五 与 五 、 五 与 五 两 对 实例 显示 出 最 高 的 相似 值 0.8， 可 以 选择 其 
中 一 对 进行 合并 。 至 此 ， 第 一 次 迭代 后 ， 产 生 了 三 个 单 实例 的 簇 (I,)、(1,)、(Z;) 和 一 个 具 
有 双 实 例 的 簇 (了 ,了 )。 

(3) 第 二 和 迭代， 计算 两 个 驴 之 间 的 相似 度 值 。 

计算 两 个 簇 之 间 的 相似 度 值 的 方法 有 多 种 。 图 7.16 给 出 的 是 通过 计算 两 个 徐 中 所 有 实 
例 平均 相似 度 得 到 的 簇 之 间 的 相似 度 。 如 ， 簇 ( ,与 簇 (1,) 的 相似 度 值 为 7/15=0.47。 

相似 性 值 ( 171,13), (7, AD) = 0.8 

相似 性 值 7,,( 4, 73)) = 0. 33, 相似 性 值 ( 1,), (1,) = 1.0 


相似 性 值 14,( 73)) = 0.47, 相似 性 僵 ( 0) (72)) = 0.8, 相似 性 值 ( 7,),(1,)) = 1.0 
相似 性 值 1,( 1, 和 7) = 0.47, 相似 性 值 ( 17,),( 7,)) = 0.6, 相似 性 值 ( 7,), (7,))= 0.4, 相似 性 值 ( 1,), (71,)) = 1.0 


图 7.16 第 二 次 迭代 簇 间 相似 性 

(4) 第 二 次 迭代 ， 合 并 工 与 1。 

产生 两 个 双 实 例 徐 ( 工 ,7,)、( 工 ,) 和 一 个 单 实例 入 (7 )。 继续 簇 的 合并 过 程 直 到 所 有 实 
例 合 并 到 一 个 簇 中 。 

(5) 确定 最 后 的 艇 。 

可 以 使 用 多 种 统计 方法 ， 如 启发 式 技术 。 以 下 是 三 种 常用 的 启发 式 技术 。 

(1) 使 用 合并 簇 时 使 用 的 相似 度 度量 方法 ， 将 各 个 簇 内 平均 相似 度 与 数据 集中 所 有 实 
例 的 总 相似 度 ( 称 为 域 相似 度 ) 进 行 比较 。 若 各 个 入 的 平均 相似 度 比 域 相似 度 高 ， 即 确定 该 
聚 类 算法 是 有 用 的 。 应 用 这 种 启发 式 技术 ， 可 能 导致 多 个 簇 表现 出 较 好 的 质量 ( 艇 内 平均 相 
似 度 值 大 于 域 相似 度 )， 故 该 技术 一 般 用 于 淘汰 簇 而 不 是 选择 最 后 的 簇 。 

(2) 将 每 个 簇 内 的 平均 相似 度 与 每 个 簇 间 的 相似 度 进 行 比较 。 类 内 部 相似 度 值 大 于 簇 
间 的 相似 度 值 的 簇 被 认为 是 质量 较 好 的 徐 。 这 种 技术 同样 还 导致 多 个 艇 表现 出 较 好 的 质量 ， 
故 该 技术 也 是 用 来 淘汰 簇 而 不 是 用 于 选择 最 后 的 簇 。 

(3) 结合 前 两 种 技术 ， 淘 汰 一 些 簇 后 ， 将 每 个 保留 下 来 的 簇 提交 给 规则 生成 器 ， 检 查 
这 些 规则 集 ， 选 择 其 中 定义 最 明确 的 徐 作 为 最 后 的 结果 。 

当 输 入 属性 值 为 实数 时 ， 常 用 简单 欧 氏 距离 进行 实例 之 间 、 簇 之 间 的 相似 性 度量 。 

凝聚 聚 类 一 般 不 独立 使 用 ， 经 常 是 作为 其 他 聚 类 技术 的 预 处 理 技 术 。 比 较 著 名 的 应 用 
是 在 K-means 算法 开始 前 ， 进 行 凝聚 聚 类 确定 初始 徐 的 个 数 ， 而 不 是 如 一 般 做 法 随机 或 任 
意 选择 簇 的 个 数 。K-means 算法 中 初始 簇 的 个 数 的 选择 对 最 后 聚 类 效果 的 影响 是 显著 的 ， 
因此 ， 预 先 应 用 凝聚 聚 类 技术 进行 初始 的 得 的 个 数 的 选择 ， 对 提高 K-means 算法 执行 的 质 
量 有 重要 作用 。 
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【 例 7.6】 对 于 CreditCardPromotion 信用 卡 账单 促销 数据 集 ， 使 用 Weka 进行 分 层 聚 
类 ， 查 看 分 层 结果 。 
(1) 加 载 CreditCardPromotion.csv 数据 集 ， 切 换 到 Cluster 选项 卡 ， 单 击 Choose 按钮 ， 
在 打开 的 算法 选择 对 话 框 中 ， 选 择 HierarchicalClusterer 聚 类 算法 ， 如 图 7.17 所 示 。 
(2) 设置 相似 度 度量 方法 。 单 击 Choose 按钮 后 面 的 算法 文本 框 ， 在 设置 算法 属性 对 话 
框 中 ， 设 置 距离 函数 distanceFunction 为 欧 氏 距离 EuclideanDistance， 单 击 OK 按钮 确定 。 
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7.17 选择 聚 类 算法 为 分 层 聚 类 


(3) 在 Cluster mode 面板 中 选择 Use training set 选项 ， 单 击 Start 按钮 执行 挖掘 ， 结 果 
如 图 7.18 所 示 。 观 察 结果 ， 产 生 两 个 簇 ， 一 个 具有 14 个 实例 ， 另 一 个 为 单 实例 徐 。 要 想 
更 为 直观 地 查看 分 层 过程 ， 可 在 Result list(right-click for options) 列 表 中 选择 本 次 训练 条 目 ， 
右 击 ， 从 弹出 的 快捷 菜单 中 选择 Visualize tree 命令 ， 打 开 分 层 聚 类 树 ， 如 图 7.19 所 示 。 


we Model and evaluarion on training aec we 


Cluster 0 


{(((((45.0:1.00154,43.0:1.00154) :0.00192, 42.0:1.00347) :0.05974,55.0:1.0632) :0.20366, (27.0:1 | 


Time taken to build model (full training daca) : 0.01 seconds 
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7.18 ”分 层 聚 类 结果 
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图 7.19 分 层 聚 类 树 
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2. Cobweb 分 层 聚 类 算法 


Cobweb 算法 是 一 种 增 量 式 分 层 聚 类 算法 。Cobweb 使 用 分 类 树 对 实例 数据 进行 分 类 ， 
分 类 树 的 构造 过 程 是 一 种 概念 分 层 的 过 程 ， 这 个 过 程 称 为 概念 聚 类 。 

概念 聚 类 (Conceptual Clustering) 是 一 种 无 指导 聚 类 技术 ， 它 结合 增 量 学 习 (Incremental 
Learning) 构 造 概念 分 层 。 概 念 分 层 (Concept Hierarchy) 是 一 种 树 结构 形式 ， 其 根 节 点 包含 所 
有 域 实例 的 汇总 信息 ， 是 概念 的 最 高 层次 。 在 分 类 树 中 ， 除 了 叶 节 点 ， 其 他 节点 都 称 为 树 
的 基层 节点 (Basic-Level Nodes)。 基层 节点 实际 上 表达 了 人 类 对 概念 层次 的 划分 。 在 Cobweb 
中 , 使 用 评价 函数 来 度量 概念 层次 的 质量 。 因此，Cobweb 是 一 种 在 概念 分 层 上 储存 知识 的 
概念 聚 类 模型 ， 它 接受 的 实例 格式 为 “属性 - 值 ”， 并 且 属 性 值 必须 是 分 类 类 型 的 。 下 面 是 
标准 的 Cobweb 概念 聚 类 算法 。 

(1) 建立 一 个 类 ( 徐 )， 使 用 第 一 个 实例 作为 它 唯一 的 成 员 。 

(2) 对 于 每 个 剩余 实例 ， 在 每 个 树 层次 (概念 分 层 ) 上 ， 用 一 个 评价 函数 决定 选择 以 下 两 
个 动作 之 一 执行 。 

@ ”将 新 实例 放 到 一 个 已 存在 的 簇 中 。 

@ ”创建 一 个 只 具有 这 个 新 实例 的 新 概念 簇 。 

在 Cobweb 中 ， 评 价 函数 (Evaluation Function) 是 一 种 对 概念 分 类 质量 测量 的 指标 ， 
Cobweb 算法 使 用 了 一 种 启发 式 评价 方法 一 一 分 类 效用 (Category Utility，CU) 来 指导 分 类 。 
CU 定义 了 聚 类 的 好 坏 ， 值 越 小 聚 类 较 差 ， 值 越 大 聚 类 质量 越 好 。 

CU 的 计算 公式 如 下 
| bi =V, 1C) 4 二 | 


大 =1 


CU= 
式 (7.16) 中 包含 三 个 概率 。 其 中 : 
(1) P(4 = 万 ye 表示 在 类 Cx 的 全 体 成 员 中 ， 属 性 4 为 世 的 条 件 概率 。 
(2) P(4 = 表示 在 整个 数据 集中 ， 属 性 44 取 值 为 的 概率 。 
(3) P(C,): aq 
下 面 用 一 个 例子 来 说 明 CU 方程 的 计算 方法 。 
【 例 7.7】 假设 已 经 将 表 7.7 中 的 实例 聚 类 为 两 个 簇 ， 分 别 为 C、C,， 计 算 CU 值 。 


(7.16) 
m 


表 7.7 计算 CU 使 用 的 数据 集 


Instance Color Shape 全 
下 Circle 
hb i le Fl 


数值 化 前 


3 | Yenow | | innona | [rme | 


i Blue Diamond | True 
i Blue Diamond | False 


假设 聚 类 结果 分 为 了 两 个 类 CC 和 C,，, 分 别 为 (i, 志 ) 和 (,i,i)。 下 面 按 步 又 计算 CU 值 ， 
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II 
从 而 评价 该 聚 类 的 质量 。 

(1) 计算 P(C,) 。 

数据 集 共 有 5 个 实例 ， 而 C 和 C, 分 别 有 两 个 实例 和 3 个 实例 ， 则 P(C)=2/15=0.4， 
P(C)=3/15=06 。 

CO) 计算 DP(4 = 用) 。 


这 个 二 重 求 和 被 称 为 无 条 件 概率 求 和 项 (Unconditional Probability Sum)。 计 算数 据 集中 
每 个 属性 的 每 个 取 值 的 概率 值 ， 求 其 平方 和 ， 结 果 如 表 7.8 所 示 。 


表 7.8 CU 方程 中 的 无 条 件 概率 值 和 条 件 概率 值 的 计算 结果 


整个 数据 集 6 
属性 值 
无 条 件 概 率 值 条 件 概 率 值 
Red 2/5)*= 0.1600 2/2)* = 1.0000 0/3) = 0.0000 


Yellow 1/5) = 0.0400 0/2) = 0.0000 1/3) =0.1111 
Blue 2/5) = 0.1600 0/2) = 0.0000 2/3) = 0.4444 
Circle 1/5)* = 0.0400 1/2)* = 0.2500 0/3) = 0.0000 
Diamond | (3/5)=0.3600 0/2) = 0.0000 3/3) = 1.0000 
Rectangle | (1/5)=0.0400 1/2)2= 0.2500 0/3)2 = 0.0000 
False 2/5)2= 0.1600 1/2)* = 0.2500 1/3)2= 0.1111 
True 3/5) = 0.3600 1/2)* = 0.2500 2/3)2 = 0.4444 


求 和 项 Unconditional Probability | Unconditional Probability Unconditional Probability 
Sum=1.3200 sum (f=1)= 2.0000 sum (£=2)= 2.1111 
(3) 计算 DP(4 = le 入 
# 


这 个 二 重 求 和 项 被 称 为 条 件 概率 求 和 项 (Conditional Probability Sum)。 计 算 每 个 属性 值 
分 别 出 现 在 C 和 C, 中 的 条 件 概率 ， 求 其 平方 和 ， 结 果 如 表 7.8 所 示 。 

(4) 计算 CU。 

根据 式 (7.16) 计 算 这 个 分 类 的 分 类 效用 CU 值 。 

CU 9427132) SO -132) _037 
为 了 说 明 Cobweb 模型 进行 概念 分 层 的 过 程 ， 使 用 Weka 建立 概念 分 类 树 。 
【 例 7.8】 根据 表 7.7 中 的 实例 集 ， 使 用 Weka 进行 Cobweb 聚 类 ， 建 立 概念 分 层 树 。 

参见 图 7.20 所 示 的 Cobweb 使 用 表 7.7 中 的 数据 集 建立 概念 分 层 。 分 层 步骤 如 下 。 

(1) 加 载 表 7.7 中 的 数据 集 ， 切 换 到 Cluster 选项 卡 ， 单 击 Choose 按钮 ， 选 择 聚 类 算法 
为 Cobweb， 如 图 7.20 所 示 。 

(2) 其 他 参数 保持 默认 ， 单 击 Start 按钮 开始 聚 类 ， 输 出 结果 如 图 7.21 所 示 ， 打 开 分 类 
树 ， 如 图 7.22 所 示 。 观察 该 树 , 根 节点 将 所 有 5 个 实例 聚 类 在 一 起 ， 是 所 有 概念 类 的 综合 。 
树 的 第 二 层 为 第 一 层 概 念 层 ， 有 3 个 叶 节点 和 一 个 基层 节点 。 新 实例 在 加 入 概念 层 时 ， 评 
价 函 数 有 四 种 选择 。 
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7.20 在 Weka 中 选择 Cobweb 聚 类 算法 7.21 ” Cobweb 聚 类 结果 


Q 若 新 实例 与 该 层 已 经 存在 的 类 中 的 实例 充分 相似 , 其 被 合并 到 该 节点 中 ,并 且 该 实 
例 沿 着 这 条 路 径 进 入 分 层 的 第 二 层 。 

@ 若 评价 函数 认为 新 实例 是 唯一 的 可 以 建立 概念 节点 的 节点 ， 则 其 成 为 该 层 的 叶 节 
点 ， 即 概念 节点 。 

@ 若 两 个 节点 的 相似 度 很 高 ， 可 将 它们 合并 为 一 个 基层 节点 ， 并 将 新 实例 再 次 提供 给 
概念 层 以 更 改 分 层 。 

@ 同样 地 , 若 两 个 节点 的 相似 度 很 高 , 可 将 其 中 一 个 已 经 聚 类 到 概念 分 层 中 的 节点 分 
解 出 来 ， 并 将 该 实例 在 此 提供 给 概念 层 以 更 改 分 层 。 

后 两 种 选择 有 助 于 更 改 由 偏 余 的 实例 造成 的 非 理 想 分 层 。 最 后 在 概念 树 的 每 个 层 上 继 
续 这 个 过 程 直 到 所 有 新 节点 都 成 为 叶 节点 ， 概 念 分 层 树 建 立 完毕 。 
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图 7.22 ” Cobweb 聚 类 算法 创建 的 概念 分 层 树 


Cobweb 算法 能 够 自动 调整 类 ( 艇 ) 的 个 数 ， 不 会 因为 随机 选择 分 类 个 数 的 不 合理 性 ， 造 
成 聚 类 结果 的 不 理想 。 但 是 Cobweb 算法 中 的 两 种 操作 选择 ， 对 于 实例 的 顺序 是 敏感 的 ， 
故 为 了 降低 这 种 敏感 性 , 算法 引入 了 两 种 附加 操作 一 一 合并 和 分 解 ( 见 例 7.8 步 又 (2)G@、@)。 

同时 ， 在 应 用 Cobweb 算法 时 需要 考虑 其 局 限 性 。 主 要 缺点 有 以 下 三 点 。 

(1) Cobweb 算法 假设 每 个 属性 的 概率 分 布 是 彼此 独立 的 ( 见 式 (7.16) 和 例 7.7)， 但 实际 
应 用 中 ， 属 性 间 经 常 是 相关 的 ， 所 以 这 个 假设 不 总 是 成 立 的 。 

(2) 类 ( 艇 ) 的 概率 分 布 的 表示 、 更 新 和 存储 的 复杂 程度 ， 取 决 于 每 个 属性 取 值 的 个 数 ， 
当 属性 有 大 量 的 取 值 时 ， 算 法 的 时 间 和 空间 复杂 度 会 有 相当 大 的 提高 。 
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(3) 偏 斜 的 实例 数据 会 造成 概念 分 层 树 的 高 度 不 平衡 ， 也 会 导致 时 间 和 空间 复杂 度 的 
剧烈 变化 。 


7.3.2 基于 模型 的 聚 类 


基于 模型 的 聚 类 方法 (Model-based Clustering) 是 为 每 个 分 类 ( 簇 ) 假 设 一 个 模型 ， 再 去 发 
现 符合 模型 的 数据 实例 ， 使 得 实例 数据 与 某 个 模型 达成 最 佳 拟 合 。 它 可 以 通过 建立 反映 实 
例 数据 空间 分 布 的 密度 函数 来 定义 簇 的 特征 ， 还 可 以 通过 统计 数字 确定 簇 的 个 数 、 噪 声 数 
据 和 孤立 点 ， 使 得 该 聚 类 方法 具有 一 定 的 健壮 性 ， 所 以 应 用 非常 广泛 。 

为 每 个 簇 假设 一 个 数学 上 的 参数 分 布 模型 如 高 斯 分 布 (Gaussian Distribution) 或 泊 松 分 
布 (Poisson Distribution)， 整 个 数据 集 则 成 为 一 个 这 些 分 布 的 混合 分 布 模 型 ， 每 个 分 类 的 单 
个 分 布 被 称 为 成 分 分 布 (Component Distribution)。 因 为 每 个 成 分 分 布 都 是 数据 分 布 的 最 佳 
拟 合 , 则 混合 模型 能 够 很 好 地 表达 整个 数据 的 分 布 。 其 中 
一 个 混合 (Mixture) 是 一 组 n 元 概率 分 布 , 其 每 个 分 布 代表 oe 
一 个 艇 。 混合 模型 为 每 个 数据 实例 指定 一 个 概率 , 假定 这 Ss 
个 实例 是 某 个 马 的 成 员 , 则 它 具 有 一 组 特定 的 属性 值 .。 混 (个 
合 模型 假定 所 有 属性 是 独立 自由 变量 。 司 

基于 模型 的 聚 类 方法 中 , 使 用 最 广泛 的 是 高 斯 混合 模 
型 。 该 模型 把 分 类 ( 徐 ) 看 成 以 重心 为 中 心 的 高 斯 分 布 ， 如 
图 7.23 所 示 ， 其 中 圆圈 部 分 表示 分 布 的 主体 ，/ 为 所 给 属 。 四 
性 的 均值 ，o 为 属性 的 标准 差 值 。 国 了 3 证 和 让 全 于 全 不 下 用 

EM(Expectation-Maximization) 算 法 是 一 种 采用 有 限 高 斯 混合 模型 的 统计 技术 ， 统 计 学 
中 用 于 在 依赖 于 无 法 观测 的 隐 性 变量 (Latent Variable) 的 概率 模型 中 ， 对 参数 进行 最 大 似 然 
估计 。 假 设 整个 数据 集 服从 高 斯 混合 分 布 ， 待 聚 类 的 数据 实例 看 成 是 分 布 的 采样 点 ， 通 过 
采样 点 利用 极 大 似 然 估计 方法 估计 高 斯 分 布 的 参数 。 求 出 参数 即 得 出 了 实例 数据 对 分 类 的 
隶属 函数 。 

EM 算法 与 K-means 算法 相似 ,都 是 欠 代 地 进行 参数 估计 直到 得 到 一 个 期 望 的 收敛 值 。 
下 面 在 最 简单 的 情况 下 ， 给 出 EM 算法 的 一 般 过 程 。 假 设 概率 分 布 是 正 态 的 ， 分 类 ( 簇 ) 个 
数 为 2， 数 据 实例 由 单个 实 值 属性 组 成 ， 算 法 的 任务 是 对 5 个 参数 值 进行 估计 ， 分 别 是 两 
个 分 类 的 均值 4、 标 准 差 o， 一 个 分 类 的 样本 概率 P( 另 一 个 的 概率 为 1 -了 )。 

EM 算法 的 一 般 过 程 如 下 。 

(1) 估计 5 个 参数 的 初始 值 。 

(2) 直到 满足 某 个 终止 标准 。 

Q@ 使 用 如 式 (7.17) 所 示 的 正 态 分 布 的 概率 密度 函数 计算 每 个 实例 的 分 类 概率 ， 在 双 分 
类 的 情况 下 ， 有 两 个 概率 分 布 公式 ， 每 个 都 拥有 不 同 的 均值 和 标准 差 值 。 

@ 使 用 步骤 (2)D 中 每 个 实例 的 概率 值 重新 对 5 个 参数 进行 重新 估 值 。 

Jo =1M(acV2r)ee Ac) 全 其 

其 中 : e 为 指数 ;， /为 所 给 数值 属性 的 均值 ; co 为 属性 的 标准 差 值 ; x 为 属性 值 。 

算法 的 终止 条 件 是 度量 聚 类 质量 的 值 不 再 显著 增 大 ， 使 用 来 自 聚 类 所 确定 的 分 类 ( 簇 ) 
的 可 能 性 值 来 度量 聚 类 的 质量 ， 值 越 高 表示 聚 类 越 理 想 。 
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2 


下 面 在 Weka 中 使 用 EM 算法 ， 对 iris 数据 集 进 
行 聚 类 分 析 。 

【 例 7.9】 使 用 iris 数据 集 , 在 Weka 中 使 用 EM 
算法 进行 聚 类 ， 并 解释 聚 类 结果 。 

(1) 在 Weka 中 加 载 iris.arff 数据 集 ， 切 换 到 
Cluster 选项 卡 ， 单 击 Choose 按钮 ， 选 择 聚 类 算法 为 
EM， 如 图 7.24 所 示 。 

其 他 参数 保持 默认 ， 单 击 Start 按钮 开始 聚 ” 图 ”24 在 Weka 中 选择 EM 聚 类 算法 
类 ， 输 出 结果 如 图 7.25 所 示 。 观 察 输出 结果 ，iris 数据 集中 的 实例 被 聚 类 到 4 个 簇 (分 类 ) 
中 , 与 实际 芒 尾 花 分 为 3 类 不 一 致 。 在 Result list 窗 格 的 本 次 挖掘 会 话 条 目 上 右 击 鼠 标 ， 从 
弹出 的 快捷 菜单 中 选择 Visual cluster assignment 命令 ， 打 开 如 图 7.26 所 示 的 可 视 化 窗口 。 

在 该 窗口 中 设置 了 坐标 显示 Cluster( 簇 )， 了 坐标 显示 Class( 实 际 分 类 )。 图 中 显示 出 聚 类 和 


实际 分 类 的 对 比 效果 ， 可 以 看 到 其 中 本 应 全 部 属于 Iris-virginica 类 中 的 实例 ， 被 聚 类 到 了 
Cluster2 和 Cluster3 两 个 徐 中 ， 本 应 全 部 属于 Iris-versicolor 类 中 的 实例 ， 有 几 个 被 聚 类 到 了 
Cluster0 之 外 的 Cluster3 中 。 
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图 7.26 iris 数据 集 EM 聚 类 的 可 视 化 结果 


nnn EPE 
[II 
EM 算法 实现 了 一 个 一 定 收敛 于 最 大 的 可 能 性 值 的 统计 模型 。 然 而 ， 最 大 化 可 能 不 是 
全 局 的 。 因 此 ， 要 达到 最 佳 的 结果 ， 可 以 多 次 应 用 算法 。 同 时 ， 由 于 EM 算法 所 选择 的 初 
始 的 均值 和 标准 差 值 影响 着 最 后 的 结果 ， 所 以 可 以 在 算法 开始 时 , 使 用 如 凝聚 聚 类 等 技术 ， 
计算 出 簇 的 初始 均值 和 标准 差 .'EM 算法 使 用 这 个 均值 和 标准 差 作 为 初始 参数 进行 聚 类 
分 析 。 
聚 类 最 大 的 问题 是 对 所 发 现 内 容 缺 乏 解 释 ，EM 算法 也 不 例外 ， 所 以 像 其 他 聚 类 技术 
一 样 ， 可 以 使 用 一 个 有 指导 模型 来 分 析 聚 类 的 结果 。 


7.4 数据 挖掘 中 的 统计 技术 与 机 器 学 习 技 术 


数据 挖掘 在 统计 领域 和 人 工 智 能 (AD 和 领域， 如 机 器 学 习 中 都 有 自己 的 一 套 规 则 和 技术 ， 
数据 挖 握 中 的 统计 技术 与 机 器 学 习 技术 在 如 下 几 个 方面 有 所 不 同 。 

(1) 一 般 来 说 ， 统 计 技 术 假设 数据 的 基本 分 布 ， 常 做 的 假设 是 数据 是 正 态 分 布 的 。 而 
统计 技术 在 数据 挖掘 中 的 应 用 可 靠 性 依赖 于 对 数据 集 所 做 的 基本 假设 是 否 有 效 。 反 之 ， 机 
器 学 习 技术 对 于 要 处 理 的 数据 没有 进行 假定 。 

(2) 机 器 学 习 技 术 倾向 于 用 人 可 理解 的 风格 来 决定 知识 结构 。 机 器 学 习 方 法 如 决策 树 
和 产生 式 规则 包含 的 知识 是 容易 解释 的 ， 即 便 是 神经 网 络 ， 尽 管 对 所 学 知识 的 解释 能 力 不 
强 ， 但 它 实 际 上 也 是 基于 人 脑 的 简单 模型 。 而 许多 统计 技术 的 输出 是 数学 方程 ， 它 的 含义 
解释 起 来 可 能 很 困难 。 

(3) 机 器 学 习 技术 能 够 较 好 地 处 理 缺 失 数据 和 噪声 数据 。 在 噪声 环境 下 ， 神 经 网 络 在 
建立 模型 方面 是 特别 优秀 的 。 而 统计 技术 通常 需要 消除 有 噪声 的 数据 实例 。 

(4) 大 多 数 机 器 学 习 技 术 能 够 解释 它们 的 行为 ， 而 统计 技术 不 能 。 神 经 网 络 是 个 例外 ， 
它们 不 能 以 一 种 人 所 理解 的 形式 指出 所 学 习 的 内 容 。 

(5) 统计 技术 能 够 处 理 小 型 或 大 小 适度 的 数据 集 ， 而 在 处 理 大 型 数据 集 上 存在 问题 。 
这 是 因为 较 大 的 数据 集 更 可 能 包含 噪声 。 而 且 ， 许 多 统计 方法 试图 以 线性 方式 来 建立 数据 
模型 ， 当 一 个 数据 集 的 大 小 增加 时 ， 建 立 一 个 准确 的 线性 模型 是 不 可 能 的 。 

(6) 统计 技术 和 机 器 学 习 方 法 在 建 模 速度 上 没有 本 质 区 别 ， 计 算 复 杂 性 仅仅 依赖 于 采 
用 的 技术 本 身 ， 具 体 是 统计 技术 还 是 机 器 学 习 方法 没有 关系 。 

(7) 使 用 统计 检验 来 评估 数据 挖掘 的 输出 结果 ， 与 建 模 技术 本 身 无 关 ， 不 管 是 应 用 统 
计 技 术 还 是 机 器 学 习 方法 ， 所 建 模型 都 可 以 利用 统计 技术 加 以 检验 。 


本 章 小 结 


本 章 内 容 概 述 如 图 7.27 所 示 。 
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使 用 Excel 的 
LINEST 函 数 


使 用 Weka 的 


非 线性 回归 


LinearRegression 
算法 
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贝 叶 斯 分 析 
/ 
《分 层 四 类) 人 、 


缀 于 模型 的 聚 涩 


| 有 指导 学 习 技术 


无 指导 聚 类 技术 | 


/ 
~ 
\ 


7.27 第 7 章 内 容 导 图 


数据 挖掘 中 的 统计 技术 包括 有 指导 的 分 类 技术 和 无 指导 的 聚 类 技术 。 有 指导 的 分 类 技 
术 中 最 常用 的 、 用 于 估计 和 预测 问题 的 是 回归 分 析 技术 。 线 性 回归 是 以 一 个 或 多 个 自 变量 
的 线性 组 合 来 表达 一 个 因 变 量 的 变化 ， 在 因 变 量 和 自 变量 之 间 的 关系 接近 于 线性 时 ， 线 性 
回归 是 一 种 合适 的 数据 挖掘 策略 。Microsoft Excel 的 LINEST 函数 和 Weka 中 的 Linear 
Regression 算法 都 能 够 很 容易 地 进行 多 元 线性 回归 建 模 。 

在 实际 应 用 中 ， 多 数 问题 是 非 线性 的 ， 即 因 变 量 和 自 变 量 之 间 不 存在 线性 关系 ， 此 时 
需要 根据 数据 背景 的 研究 结果 和 散 点 图 中 数据 的 分 布 ， 选 择 一 种 或 多 种 曲线 方程 来 拟 合 数 
据 的 分 布 。 但 是 曲线 方程 的 参数 估计 是 一 件 困难 的 事 ， 往 往 通 过 变量 置换 ， 将 非 线性 方程 
转换 为 线性 方程 ， 再 进行 参数 估计 。 

对 数 回归 模型 是 一 种 常用 的 非 线性 回归 方程 。 对 数 回归 模型 的 一 个 应 用 就 是 在 因 变 量 
为 二 元 输出 时 对 因 变 量 值 的 约束 。 对 数 回归 方程 将 因 变量 的 输出 与 每 个 数据 实例 的 条 件 概 
率 值 关联 起 来 。 

对 于 实际 应 用 中 更 为 复杂 的 问题 ， 可 以 通过 树 回 归 方 法 进行 数据 分 段 拟 合 ， 解 决 不 能 
使 用 一 个 模型 进行 全 局 拟 合 的 问题 。 树 回归 分 为 回归 树 和 模型 树 ， 两 者 的 区 别 在 于 叶 节 点 
是 经 过 树 到 达 该 节点 的 所 有 实例 的 输出 属性 的 平均 值 ， 还 是 一 个 分 段 的 线性 回归 模型 。 

贝 叶 斯 分 类 器 是 一 种 简单 而 功能 强大 的 有 指导 分 类 技术 。 模 型 假设 所 有 输入 属性 具有 
相等 的 重要 性 且 相 互 独立 。 这 种 假设 很 可 能 不 成 立 ， 但 即便 如 此 ， 贝 叶 斯 分 类 器 在 实际 应 
用 中 仍然 工作 良好 。 贝 叶 斯 分 类 器 可 以 应 用 在 具有 分 类 类 型 和 数值 类 型 数据 的 数据 集中 ， 
以 及 应 用 在 包含 大 量 缺 失 数据 的 数据 集中 ， 这 是 它 相 比 很 多 统计 分 类 器 所 具有 的 优势 。 

基于 分 层 的 聚 类 技术 中 常用 的 是 凝聚 聚 类 和 概念 分 层 聚 类 。 凝 聚 聚 类 开始 时 假设 每 个 
数据 实例 代表 它 自己 的 徐 ， 算 法 的 每 次 迭代 都 合并 最 相似 的 一 对 徐 ， 最 后 将 所 有 数据 实例 
都 聚 类 在 一 个 徐 中 。 计 算 实 例 的 相似 度 和 簇 相似 度 ， 以 及 簇 合 并 方法 有 多 种 方法 ， 使 用 简 
单 欧 氏 距离 是 常用 的 方法 。 凝 聚 聚 类 往往 作为 其 他 聚 类 技术 应 用 的 预 处 理 技 术 ， 用 来 确定 
初始 簇 的 个 数 、 计 算 初始 属性 均值 和 标准 差 。 

概念 分 层 聚 类 技术 中 的 Cobweb 算法 是 一 种 增 量 学 习 算 法 ， 它 通过 概念 分 层 分 类 树 来 
建 模 。 
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基于 模型 的 聚 类 技术 为 每 个 数据 实例 指定 一 个 概率 ， 该 概率 是 构成 某 个 簇 的 一 组 特定 
属性 值 。EM(Expectation-Maximization) 算 法 利用 有 限 高 斯 混合 模型 ， 在 假设 所 有 属性 是 独 
立 自由 变量 的 前 提 下 ， 选 代 计 算 一 组 参数 ， 直 到 达到 一 个 期 望 的 收敛 值 ， 进 行 参 数 估计 。 


习 题 


1. 表 7.9 为 菜 个 家 庭 从 2004 年 以 来 的 年 均 收入 情况 ， 收 入 单位 为 千 元 。 


表 7.9 家 庭 年 均 收入 表 

No. Year Income 
L 2004 2 二 
2 343 
3 189 
4 357 
5 568 
6 1004 
5 1303 
8 985 
9 1403 
10 1357 


(1) 画 出 表 7.9 的 散 点 图 ,将 Year 作为 x 轴 ,income 作为 y 轴 ,观察 该 图 ,Year 和 Income 
之 间 是 否 呈 线性 关系 ? 

(2) 使 用 MS Excel 的 LINEST 函数 建立 简单 线性 回归 方程 , 预测 这 个 家 庭 未 来 的 收入 。 

2. 使 用 第 2 章 表 2.1 中 假想 的 打 篮 球 数据 集 ， 建 立 贝 叶 斯 分 类 器 ， 确 定 下 面 实例 的 
Play 值 。 

Weather = Sunny 

Temperature = 20~30 

Courses =4 

Partner = No 

Play=? 

假设 Partner 未 知 ，Play 的 值 又 如 何 ? 

3. 对 表 7.10 中 的 数据 实例 ， 使 用 凝聚 聚 类 技术 ， 将 实例 聚 类 在 合适 的 往 中 。 


表 7.10 ”一 个 假想 的 打 篮 球 数据 集 ( 部 分 ) 


Weather Temperature/C Courses partner Play 
Sunny | 20~30 Yes | Yes 
ead | 20~30 No | No 
Sunny 0 一 10 Yes 


20 一 30 
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Weather 
Sunny 
Rain 


Courses 
8 
2 


Temperature/C 
10 一 20 
0 一 10 


4. 假设 已 经 将 表 7.11 中 的 实例 聚 类 为 两 个 徐 ， 分 别 为 C1 和 Cs， 计算 CU 值 。 
表 7.11 网 络 购物 交易 记录 表 ( 部 分 ) 


Book Earphone 
Yes Yes 
Yes No 
No Yes 
No No 
Yes Yes 


5. 使 用 LINEST 函数 和 心脏 病人 数据 集 进行 实验 

(1) 除了 列 Angina、Slope、Thal 和 Class 之 外 ， 删除 其 他 列 . 

(2) 应 用 LINEST 函数 和 前 200 个 数据 实例 创建 一 个 因 变 量 为 Class 的 线性 回归 模型 。 
(3) 挑选 两 个 或 三 个 实例 用 于 检验 ， A 分 类 这 些 实例 吗 ? 

(4) 使 用 Weka 绚 村 相交 光武 丛 和 检验 ， 对 比 结 

(5) 使 用 Weka 的 NaiveBayes 分 类 i yt 

(6) 对 心脏 病人 数据 集 应 用 Weka 的 EM 算法 ， 检 查分 析 聚 类 结 
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第 8 章 时 间 序 列 和 基于 
Web 的 数据 挖掘 


本 章 要 点 提示 


在 现实 生活 中 ， 存 在 这 样 一 类 数据 ， 它 们 之 间 存 在 着 时 间 上 的 关系 ， 2 
特征 ， 它 们 的 观测 值 通常 是 按时 间 顺 序 排列 ， 如 股票 价格 、 销 售 量 、Web 站 点 点 击 率 、 

济 数据 等 ， 这 样 的 数据 被 称 为 时 间 序列 (数据 )。 时 间 序 列 在 现实 生活 中 非常 常见 ， 人 
金融 、 商 业 、 气 象 、 通 信 等 领域 产生 着 大 量 的 时 间 序 列 。 随 着 计算 机 技术 的 普遍 应 用 ， 这 
些 数 据 能 够 被 保存 起 来 ， 通 过 分 析 和 挖 据 ， 发 现 隐 含 在 数据 中 的 时 间 演 变 规律 ， 从 而 实现 
对 产生 时 间 序 列 的 系统 的 未 来 行为 的 预测 。 这 就 是 时 间 序 列 分 析 或 挖掘 。 

本 章 8.1 节 使 用 神经 网 络 技术 和 线性 回归 方法 建立 预测 模型 ， 解 决 时 间 序 列 预测 问题 。 
8.2 节 介 绍 了 如 何 使 用 数据 挖掘 对 Web 站 点 进行 自动 化 评估 和 提供 个 性 化 服务 ， 并 就 Web 
站 点 的 自 适应 调整 和 改善 进行 了 简单 阐述 . 8.3 节 针 对 多 模型 应 用 中 的 两 种 著名 方法 装 袋 和 
推进 进行 了 简单 介绍 。 


8.1 时 间 序 列 分 析 


8.1.1 概述 
1. 时 间 序 列 


股票 价格 是 典型 的 时 间 序 列 数据 ， 它 的 观测 值 中 包含 与 时 间 相 关 的 信息 。 随 着 时 间 的 
变化 和 推移 ， 股 票 的 价格 在 不 断 地 波动 ， 若 将 这 些 股票 价格 按照 时 间 排 序 ， 就 形成 了 以 时 
间 为 序 的 时 间 序 列 (Time Series)， 即 时 间 序 列 是 用 时 间 排 序 的 一 组 随机 变量 。 
常生 活 中 会 产生 大 量 的 、 各 种 类 型 的 时 间 序 列 数据 ， 一 般 可 以 分 为 以 下 几 种 。 

1) 根据 时 间 序 列 值 的 个 数 划 分 

根据 时 间 序 列 值 的 个 数 可 以 分 为 一 元 时 间 序 列 和 多 元 时 间 序 列 。 

(1) 一 元 时 间 序 列 。 

与 时 间 相关 的 序列 值 只 有 一 个 的 时 间 序 列 被 称 为 一 元 时 间 序 列 (Univariate Time Series， 
单 变 量 时 间 序 列 )。 Ja 商品 售 价 、 家 庭 收 入 等 时 间 序 列 ， 只 有 一 个 属性 值 与 时 间 
相关 ， 可 以 通过 单 变量 的 分 析 获 取 知 识 或 规律 。 

(2) 多 元 时 间 序 列 。 

与 时 间 相关 的 序列 值 有 多 个 的 时 间 序 列 被 称 为 多 元 时 间 序 列 (Multivariate Time Series， 
多 变量 由 间 序 列 )。 如 气象 数据 、 经 济 数据 等 时 间 序 列 。 气 象 数据 可 能 包含 温度 、 湿 度 、 风 
力 、 气 压 、 雨 量 等 与 时 间 相 关 的 反映 气象 条 件 的 属性 ， 而 经 济 数据 可 能 包含 GDP、CPI、 
人 均 收 入 、 利 率 、 汇 率 等 与 时 间 相 关 的 反映 经 济 状况 的 属性 。 多 元 时 间 序 列 中 的 各 个 序列 
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值 能 够 从 多 个 侧面 描述 序列 的 变化 规律 ， 多 元 时 间 序 列 的 数据 挖掘 就 是 要 揭示 各 变量 之 间 
相互 依赖 关系 的 动态 规律 性 。 

2) 根据 时 间 的 类 型 划分 

根据 时 间 的 类 型 可 以 分 为 离散 型 时 间 序列 和 连续 型 时 间 序 列 。 

(1) 离散 型 时 间 序 列 。 

时 间 序 列 中 每 个 序列 值 所 对 应 的 时 间 参 数 为 离散 的 间隔 点 ， 则 该 序列 被 称 为 离散 时 间 
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(2) 连续 型 时 间 序 列 。 

时 间 序 列 中 的 每 个 序列 值 所 对 应 的 时 间 参 数 为 连续 函数 ， 则 该 序列 被 称 为 连续 时 间 序 
列 (Continuous Time Series)。 

3) 根据 时 间 序 列 中 序列 的 统计 特性 划分 

根据 时 间 序 列 中 序列 的 统计 特性 分 为 平稳 型 、 季 节 型 、 循 环 型 、 直 线 型 和 曲线 型 时 间 
序列 。 

(1) 平稳 型 时 间 序 列 。 

平稳 型 时 间 序 列 (Steadied Time Series) 是 指 时 间 序 列 中 的 属性 值 随 着 时 间 的 变化 无 明 
显 的 趋势 ， 既 不 会 有 逐渐 增加 ( 升 高 ) 的 趋势 ， 也 不 会 有 逐渐 减少 (下 降 ) 的 趋势 ， 而 会 在 某 个 
值 的 范围 内 上 下 波动 ， 而 且 波动 是 无 规律 的 。 这 个 值 称 为 水 平 值 ， 该 水 平 值 是 相对 稳定 的 。 
时 间 序 列 中 的 序列 值 ， 围 绕 这 个 水 平 值 上 下 波动 ， 故 稳定 型 时 间 序 列 也 被 称 为 水 平 型 时 间 
序列 。 

例如 ， 一 个 人 在 一 年 中 每 天 消耗 的 粮食 基本 上 是 相同 的 ， 把 这 365 个 数字 排列 起 来 ， 
发 现 它 所 构成 的 时 间 序 列 总 保持 在 一 定 水 平 ， 上 下 相差 不 大 。 平 稳 型 时 间 序 列 中 序列 的 取 
值 与 具体 时 期 无 关 ， 只 与 时 期 的 长 短 有 关 。 一 般 来 说 ， 只 有 平稳 型 时 间 序 列 才 是 可 以 被 
预测 的 。 

(2) 季节 型 时 间 序 列 。 

季节 型 时 间 序 列 (Seasonal Time Series) 是 指 时 间 序 列 中 的 属性 值 随 着 时 间 周 期 进行 周 
期 性 变化 的 时 间 序 列 。 此 处 的 “季节 ”不 是 特 指 一 年 四 季 中 的 季节 ， 而 是 泛 指 时 间 周 期 ， 
可 以 是 日 、 周 、 月 、 年 、 季 节 等 不 同 的 时 间 周 期 。 时 间 序 列 中 属性 值 的 周期 性 变化 指 的 是 
序列 值 在 每 个 周期 中 变化 基本 相似 。 如 图 8.1 所 示 为 2008 一 2013 年 某 城 市 某 类 商品 的 每 个 
季度 的 销售 总 额 的 时 态 图 。 图 中 的 商品 为 季节 型 商品 ， 其 销售 额 与 季节 有 密切 关系 ， 一 季 
度 是 全 年 最 高 水 平 ， 到 了 二 季度 有 所 下 降 ， 到 了 三 季度 达到 了 谷底， 到 了 四 季度 又 有 所 上 
升 。 而 这 个 变化 规律 每 年 的 情况 是 相似 的 。 
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8.1 季节 型 时 间 序列 的 时 态 图 
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(3) 循环 型 时 间 序 列 。 

循环 型 时 间 序 列 (Cycling Time Series) 是 指 时 间 序 列 中 的 属性 值 随时 间 的 变化 也 是 呈 周 
期 性 ， 但 是 周期 不 是 一 个 固定 的 时 间 间 隔 ， 这 个 周期 可 以 称 为 循环 周期 。 如 商业 周期 、 经 
济 周期 等 。 

(4) 直线 型 时 间 序 列 。 

直线 型 时 间 序 列 (Linear Time Series) 是 指 时 间 序 列 中 的 属性 值 随 时 间 的 变化 呈 线 性 变 
化 的 时 间 序 列 。 在 一 个 长 的 时 间 时 期 中 , 时 间 序 列 中 的 序列 值 随时 间 逐 步 增 加 或 逐步 减少 ， 
显示 出 一 种 向 上 或 向 下 的 趋势 ， 相 当 于 平稳 型 时 间 序 列 中 加 入 一 个 斜率 。 如 某 段 时 期 的 人 
均 收 入 、 商 品 的 销售 量 等 。 

(5) 曲线 型 时 间 序 列 。 

曲线 型 时 间 序 列 (Curve Time Series) 是 指 时 间 序 列 中 的 属性 值 随 时 间 的 变化 呈 曲 线 变 
化 的 时 间 序 列 。 在 一 个 长 的 时 间 时 期 中 ， 时 间 序 列 中 的 序列 值 随时 间 会 顺 时 针 转 向 或 逆 时 
针 转 向 ， 即 随时 间 增 加 或 减少 的 幅度 会 逐渐 扩大 或 缩小 ， 但 不 发 生 周 期 性 变化 。 如 某 种 商 
品 从 进入 市 场 到 被 市 场 淘汰 的 销售 量变 化 。 

季节 型 、 循 环 型 、 直 线 型 和 曲线 型 时 间 序 列 都 属于 非 平稳 型 时 间 序 列 ， 其 中 季节 型 和 
循环 型 时 间 序 列 是 曲线 型 时 间 序列 的 特例 ， 它 们 都 具有 周期 性 特征 。 

根据 以 上 时 间 序 列 的 分 类 描述 ， 确 定 一 个 时 间 序 列 可 考虑 季节 周期 、 循 环 周期 和 趋势 
因素 ， 除 此 之 外 ， 还 应 考虑 随机 波动 因素 。 所 以 一 个 时 间 序 列 一 般 由 四 个 独立 的 因素 组 
成 一 趋势、 季节 周期 、 循 环 周期 以 及 随机 波动 因素 。 

随机 波动 因素 又 称 不 规则 因素 ， 用 于 表达 时 间 序 列 随机 变化 的 特性 。 这 种 因素 包括 实 
际 时 间 序 列 值 与 考虑 了 趋势 、 循 环 周期 、 季 节 周 期 因素 后 相应 的 估计 值 之 间 的 偏差 。 随 机 
波动 因素 是 由 短期 的 、 未 被 预测 的 和 不 可 重复 发 现 的 因素 引起 的 时 间 序 列 的 随机 波动 ， 所 
以 它 是 不 可 预测 的 ， 它 对 时 间 序 列 产生 的 影响 也 是 不 可 预测 的 。 


2. 时 间 序 列 分 析 和 时 间 序 列 数据 挖掘 


时 间 序 列 分 析 是 统计 学 研究 的 一 个 重要 分 支 ， 它 是 以 事物 随时 间 变 化 的 数据 为 研究 对 
象 ， 通 过 对 时 间 序 列 数据 的 特征 进行 分 析 ， 揭 示 事 物 的 发 展 变 化 规律 。 例 如 ， 根 据 某 只 股 
票 前 几 个 月 的 每 日 收盘 价格 ， 通 过 时 间 序 列 分 析 ， 预 测 出 其 明天 的 收盘 价格 。 时 间 序 列 挖 
掘 (Time Series Data Mining, TSDM) 是 对 时 间 序 列 进行 数据 挖掘 的 过 程 , 即 从 大 量 的 时 间 序 
列 数据 中 提取 未 知 的 、 具 有 潜在 价值 的 与 时 间 属 性 相关 的 知识 或 规律 ， 用 于 短期 、 中 期 或 
长 期 预测 。 因 为 时 间 序 列 的 普遍 存在 ， 时 间 序 列 数据 挖掘 已 经 成 为 数据 挖掘 的 一 个 重要 
站 

时 间 序 列 数据 一 般 都 具有 复杂 性 、 动 态 性 、 高 噪声 ， 甚 至 多 维 的 特性 。 随 着 计算 机 技 
术 的 发 展 ， 使 得 数据 采集 和 存储 更 加 容易 ， 时 间 序 列 数 据 的 规模 也 在 不 断 提 升 ， 海 量 的 、 
具有 大 数据 特征 的 时 间 序 列 数据 正在 大 量 产生 ， 这 些 都 使 得 时 间 序 列 挖掘 成 为 数据 挖掘 中 
最 具 挑 战 性 的 工作 。 时 间 序 列 数据 挖掘 的 重要 应 用 就 是 预测 ， 即 根据 已 知 时 间 序 列 中 数据 
的 变化 特征 和 趋势 ， 预 测 未 来 属性 值 。 
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! 时 间 序 列 分 析 的 经 典 方法 有 图 表 法 、 指 标 法 和 模型 法 。 图 8.2 显示 了 某 学 校 中 午 就 餐 
! ”时 的 平均 等 待 时 间 的 时 间 序 列 图 表 。 图 表 可 以 使 用 柱 形 图 、 折 线 图 、 饼 图 等 ， 但 最 常 使 用 
1 散 点 图 ， 如 图 8.2 所 示 。 散 点 图 能 够 将 序列 属性 值 随时 间 的 变化 情况 更 为 清晰 准确 地 表达 
! ”出 来 。 指 标 法 又 可 分 为 平均 分 析 指 标 法 和 速度 分 析 指 标 法 ， 分 别 使 用 平均 水 平 、 平 均 增长 
1 ”和 平均 发 展 速度 、 平 均 增长 速度 来 度量 一 个 时 间 时 期 的 时 间 序 列 属性 值 的 变化 。 而 模型 法 
| 是 对 时 间 序 列 进行 深层 次 分 析 的 最 主要 方法 。 目 前 已 经 产生 出 多 种 经 典 时 间 序 列 分 析 方法 
1 
1 
1 
1 
1 
1 
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和 模型 ， 如 AR(Auto-regressive， 自 回归 模型 )、MA(Moving Average， 移 动 平 均 模型 或 称 滑 
动 平 均 模 型 )、ES(Exponential Smoothing， 指 数 平 滑 模型 )、TE(Trend Extrapolation， 趋 势 外 
推 模 型 )、ARMA(Auto-regressive and Moving Average， 自 回归 和 移动 平均 模型 ) 和 
ARCH(Autoregressive Conditional Heteroskedasticity， 自 回归 条 件 异 方差 模型 ) 等 ， 被 广泛 地 
应 用 在 自然 科学 和 社会 科学 的 各 个 领域 。 


Wai 
平均 就 餐 等 待 时 间 ( 分 钟 ) 
8 一 一 一 
用 各 时 间 “平均 就 侈 等 待 时 间 (分 神 ) 
1100AM 0 
6 11:10 AM 05 
1120AM 1 
上 1130 AM 3 
4 1140AM 3 
11245 AM 7 
3 11350AM 5 
2 12:00PM 
12:20PM 05 
1 1230PM 3 
机 1245PM 0 
11:00AM 11:22AM 11:44AM 12:05PM 12:27PM 12:48PM | 


图 8.2 平均 就 餐 等 待 时 间 的 时 间 序 列 图 表 


时 间 序 列 数据 挖掘 方法 与 时 间 序列 分 析 一 样 都 是 希望 从 时 间 序 列 数据 中 发 现 规律 和 特 
征 ， 从 而 对 事物 进行 分 类 或 预测 。 时 间 序 列 数据 挖掘 也 像 其 他 数据 挖掘 问题 一 样 ， 挖 掘 技 
术 和 方法 可 以 是 具有 统计 特性 的 方法 和 机 器 学 习 技 术 。 使 用 具有 统计 特性 的 方法 进行 数据 
挖掘 之 前 需要 假定 数据 的 分 布 ， 如 正 态 分 布 ， 数 据 挖掘 成 功 与 否 很 大 程度 上 取决 于 假设 的 
实际 合理 性 。 而 使 用 机 器 基于 归纳 的 学 习 方法 ， 没 有 数据 分 布 的 假设 ， 所 以 受 假设 的 限制 
很 小 。 但 数据 挖掘 的 质量 与 数据 本 身 的 质量 有 很 大 关系 ， 充 分 和 高 质量 的 数据 是 所 有 数据 
挖掘 成 功 与 否 的 重要 决定 因素 。 

时 间 序 列 数据 挖掘 方法 也 分 为 有 指导 的 学 习 、 无 指导 的 聚 类 以 及 关联 分 析 。 常 用 的 挖 
掘 方法 和 技术 有 产生 式 规则 、 决 策 树 、 贝 叶 斯 分 类 器 、 神 经 网 络 、 回 归 分 析 、 模 糊 集 和 粗 
粮 集 等 。 应 该 注意 的 是 ， 时 间 序 列 数据 集 是 随时 间 不 断 变化 的 数据 ， 其 内 部 特征 会 随 着 时 
间 的 推移 而 变化 。 而 时 间 序 列 数据 挖掘 所 使 用 的 数据 是 历史 数据 ， 基 于 这 些 数 据 训练 的 模 
型 在 现 有 数据 集中 可 能 预测 性 较 好 ， 但 不 能 保证 其 在 现在 或 将 来 的 数据 上 能 够 具有 同样 好 
的 性 能 ， 所 以 通过 数据 挖掘 建立 的 时 间 序 列 模型 需要 随时 间 进 行动 态 的 更 新 。 


3. 时 间 序 列 数据 挖掘 的 处 理 过 程 
时 间 序 列 数据 挖掘 的 一 般 过 程 如 下 。 
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(1) 确定 数据 挖 所 目标， 抽取 并 建立 时 间 序 列 数据 集 ， 选 择 合适 的 数据 挖掘 技术 或 
算法 。 

(2) 在 时 间 序 列 中 设置 内 部 时 间 间 隔 ， 将 时 间 序 列 分 割 为 若干 个 子 序列 。 

(3) 建立 预测 模型 ， 应 用 模型 预测 未 知 值 。 

下 面 通 过 两 个 例子 ， 进 一 步 描述 建立 时 间 序 列 预 测 模型 的 过 程 。 两 个 例子 分 别 使 用 了 
统计 方法 一 一 线性 回归 分 析 方 法 和 机 器 学 习 方法 一 一 神经 网 络 技 术 建 模 。 其 中 线性 回归 方 
法 分 别 使 用 MS Excel 和 Weka 软件 来 实现 ， 并 对 比 了 两 者 的 结果 。 


8.1.2 线性 回归 分 析 解 决 时 间 序 列 问题 


【 例 8.1】 表 8.1 给 出 了 某 个 城市 1994 一 2013 年 20 年 的 商品 房 平均 售 价 ， 希 望 根据 
这 20 年 的 数据 ， 建 立 线性 回归 方程 模型 ， 预 测 2014 年 该 市 的 商品 房 平 均 售 价 。 


表 8.1 某 城市 1993 一 2013 年 商品 房 平均 售 价 


Year Pre-1-HousePrice Pre-2-HousePrice Pre-3-HousePrice 


1904 1440 1455 
1995 1450 1440 
1996 1500 1450 
1997 1520 1500 
1998 1580 1520 


540 
lg | 7 | ao 540 1580 
2000 | 0 | 7 600 540 
201 | lo | io | 700 600 
2002 1000 700 
2003 2000 1200 1000 
2004 2000 1200 
2005 2300 2000 


2006 1800 2300 
2007 1700 1800 
2008 1900 1700 
2009 2300 1900 
2010 2550 2300 
2011 2800 2550 
2012 3000 2800 
2013 3600 3000 
2014 4000 3600 


表 8.1 中 的 时 间 序 列 数 据 集 有 5 个 属性 ,分别 为 Year( 年 份 )、Cur-HousePrice( 当 年 的 商 
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品 房 平均 售 价 )、Pre-1-HousePrice( 前 一 年 的 商品 房 平均 售 价 )、Pre-2-HousePrice( 前 第 二 年 的 
商品 房 平均 售 价 ) 和 Pre-3-HousePrice( 前 第 三 年 的 商品 房 平均 售 价 )。 这 样 的 数据 实例 中 实际 
上 包含 了 一 个 内 置 的 时 间 维度 ， 本 年 度 的 商品 房 平均 售 价 和 前 三 年 的 商品 房 平均 售 价 ， 期 
望 使 用 前 三 年 每 年 的 商品 房 均 价 预测 当年 价格 。 本 例 实 例 中 的 时 间 间 隔 (Time lag) 的 选择 是 
随意 的 ， 一 般 来 说 ， 选 择 一 个 最 佳 的 时 间 间 隔 需 要 通过 实验 来 确定 。 

表 8.1 中 的 最 后 一 条 记录 为 2014 年 的 前 三 年 商品 房 均 价 ， 当 年 的 均 价 需要 预测 模型 预 
测 出 来 。 

下 面 使 用 表 8.1 中 的 数据 集 , 应 用 MS Excel 的 LINEST 函数 来 建立 线性 回归 方程 预测 
模型 ， 预 测 2014 年 的 商品 房 均 价 。 步 又 如 下 。 

(1) 打开 表 8.1 所 在 的 TimeSeries-housePrice xls 文件 ,选中 4*4 的 某 个 空白 单元 格 区 域 ， 
输入 公式 “=LINEST(B2:B21,C2:E21,TRUE,TRUE)”， 按 Shift+Control+Enter 组 合 键 ， 得 到 
线性 回归 方程 的 输出 结果 ， 如 图 8.3 所 示 。 


0. 150591 -0. 414463896 1. 210629 186. 1452 
0.311687 “0. 416582271 0. 264167 257. 1256， 
0.846675 428.3868131 #N/A aN/A 
29. 45123 16 #N/A #N/A 


图 8.3 线性 回归 方程 输出 结果 


这 样 ， 得 到 线性 回归 方程 如 下 。 
(2) 现在 使 用 该 方程 预测 2014 年 的 商品 房 均 价 . 将 前 三 年 的 数据 代入 式 (8.1), 得 到 2014 
年 的 商品 房 均 价 为 1.2106*3500-0.4145*4000+0.1506*3600+186.1452 = 3307.4052。 
(3) 使 用 2010 年 到 2013 年 的 商品 房 均 价 数据 检验 回归 方程 ， 检 验 结果 如 表 8.2 所 示 。 
Cur — HousePrice = 
1.2106(Pre -1- HousePrice)— 0.4145(Pre -2- House Price) (8.1) 
+0.1506(Pre-3- HousePrice) +186.1452 


表 8.2 ”线性 回归 方程 检验 结果 


ExcelWeka 属性 未 饰 选 Weka 属性 入 选 神经 网 络 模型 预测 值 

| 实际 值 | 预测 值 | 误 差 | 预测 值 误差 | 预测 值 | 误差 
2010 3000 2865.382 134.618 2875.9376 —124.062 | 2971.865 | -28.135 
2011 3600 3041.54 558.46 3070.0176 -529.982 | 3127.169 | -472.831 
2012 4000 3722.672 277.328 3652.2576 -347.742 | 3686.292 | -313.708 


-488.364 


4040.4176 540.4176 3780.704 280.704 


2013 


通过 上 述 的 简单 检验 ， 发 现 该 线性 回归 方程 的 预测 结果 不 够 理想 。 

(4) 加 载 TimeSeries-housePrice.csv 文件 ， 使 用 Weka 软件 建立 上 述 时 间 序 列 线性 回归 
方程 。 注 意 : 在 Preprocess 选项 卡 中 将 Year 属性 设置 为 Remove, 在 Classify 选项 卡 中 选择 
算法 LinearRegression， 并 在 该 算法 的 参数 设置 对 话 框 中 将 attributeSelectionMethod 设置 为 
No attribute selection， 即 未 作 属 性 选择 。 使 用 训练 数据 作为 检验 数据 ， 执 行 数据 挖掘 ， 结 果 


3500 3988.364 
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如 图 8.4 所 示 。 

从 结果 中 可 以 看 到 使 用 Weka 建立 的 线性 回归 模型 与 使 用 Excel 建立 的 回归 模型 的 结果 
是 相同 的 。 从 结果 中 还 发 现 ， 训 练 数据 的 平均 绝对 误差 MAE 为 261.018。 这 样 的 结果 不 是 
很 理想 ， 如 果 用 这 个 预测 模型 来 预测 房价 ， 并 决定 是 否 购房 ， 可 能 会 作出 一 个 错误 的 决策 。 

(5) 在 LinearRegression 算法 的 参数 设置 对 话 框 中 将 attributeSelectionMethod 设置 为 
M5。M5 是 一 种 模型 树 算法 ， 它 将 分 段 线性 函数 作为 决策 树 的 叶子 节点 ， 采 用 方差 诱导 方 
法 , 实现 了 将 分 段 线性 回归 模型 的 组 合作 为 整个 回归 模型 的 思想 。Weka 中 的 线性 回归 算法 
借鉴 了 M5 算法 完成 属性 筛选 。 使 用 训练 数据 作为 检验 数据 ， 执 行 数据 挖 掘 ， 结 果 如 图 8.5 
所 示 。 

结果 仍然 不 理想 ， 训 练 数据 的 平均 绝对 误差 MAE 为 282.6627， 使 用 2010 年 到 2013 
年 的 商品 房 均 价 检验 模型 ， 模 型 的 预测 价格 结果 见 表 8.2， 可 以 发 现 使 用 线性 回归 不 能 很 好 
地 解决 表 8.1 中 的 商品 房 平均 售 价 问题 。 下 面 使 用 神经 网 络 技术 再 次 建 模 ， 期 望 能 够 得 到 
更 为 理想 的 结果 。 


Cur-HousePrice = Linear Regression Model 
1.2106 * Pre-1-HousePrice + Cur-HousePrice = 
-0.4145 » Pre-2-HousePrice + 
0.1506 * Pre-3-Houseprice + 0.9704 * Pre-1-HousePrice + 
186.1452 158.8176 
Time taken to build model: 0 seconds Time taken to build model: 0 seconds 
=== Evaluation on training Set === w=== Evaluation on training 3et === 
= Summary = w= Summary === 
Correlation coefficient 0.9201 Correlation coetticient 0.9146 
Mean absolute error 261.0184 Mean abaolute error 282.6627 
Root mean saquared error 383.1608 Root mean squared error 395.7057 
Relative absolute error 32.5703 $ Relative absolute error 35.2711 § 
| aeer relative squared error 39.1567 8 Root relative squared error 40.4387 $ 
| Toral Number of Instances 20 Toral Nurber of Instances 20 
图 8.4 Weka 不 作 属性 删 选 的 线性 图 8.5 Weka 作 了 属性 筛选 的 线性 
2 2] 
回归 方程 输出 结果 回归 方程 输出 结果 


8.1.3 ”神经 网 络 技术 解决 时 间 序 列 问题 


使 用 线性 回归 方程 建 模 的 实验 结果 显示 出 线性 模型 可 能 不 适合 预测 商品 房 均 价 。 现 在 
尝试 使 用 神经 网 络 技术 建立 预测 模型 。 步 又 如 下 : 加 载 TimeSeries-housePrice.csv 文件 ,在 
Preprocess 选项 卡 中 将 Year 属性 设置 为 Remove， 在 Classify 选项 卡 中 选择 算法 
MultilayerPerceptronLinear,， 并 在 该 算法 的 参数 设置 对 话 框 中 将 GUI 设置 为 Trme, 允许 交互 
式 调整 神经 网 络 的 结构 。 重 复试 验 ， 直 到 得 到 一 个 较为 理想 的 结果 或 参数 的 修改 已 经 不 能 
对 模型 产生 影响 时 为 止 。 本 例 中 ， 将 隐 层 设置 为 (7.3)， 即 两 个 隐 层 ， 每 个 隐 层 分 别 为 7 个 
和 5 个 节点 ， 结 果 如 图 8.6 所 示 。 使 用 训练 数据 作为 检验 数据 ， 执 行 数 据 挖掘 ， 结 果 如 
图 8.7 所 示 。 
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Cur-HousePrice 
Controls 
a zw 2 Learning Rate = [0.3 
Es eo Epochs 500] 
ass prror per Bpoch = 0 Nonentun = [0.2 


图 8.6 商品 房 均 价 时 间 序 列 的 神经 网 络 模型 结构 


Time taken to build model: 3.69 seconds 


=== Evaluation on training set === 
=== Surmary === 


Correlation coefficient 0.9297 
Mean absolute error 244.7439 
Root mean squared error 361.2547 
Relative absolute error 30.5395 $ 
Root relative squared error 36.918 $ 
Total Number of Instances 20 


图 8.7 ”商品房 均 价 时 间 序列 的 神经 网 络 模型 输出 结果 


从 输出 结果 中 可 以 看 到 训练 数据 的 平均 绝对 误差 MAE 为 244.7439， 比 以 上 的 线性 回 
归 方 程 模型 的 结果 有 了 一 定 的 改善 。 

使 用 2010 年 到 2013 年 的 商品 房 均 价 检验 模型 ， 模 型 的 预测 价格 结果 如 表 8.3 所 示 ， 
可 以 发 现 预测 值 与 实际 值 之 间 的 误差 有 所 下 降 。 


8.2 ”基于 Web 的 数据 挖掘 


8.2.1 概述 


随 着 Web 技术 的 迅速 发 展 和 广泛 应 用 ， 以 及 大 数据 时 代 的 到 来 ， Web 已 经 成 为 世界 上 
规模 最 大 的 公共 数据 源 。 基 于 Web 的 数据 挖掘 (也 称 Web 数据 挖掘 ) 就 是 利用 数据 挖掘 技术 
从 与 Web 相关 资源 和 行为 中 发 现 感 兴趣 的 、 潜 在 的 、 有 价值 的 模式 和 信息 的 过 程 ， 是 数据 
挖掘 技术 在 Web 环境 下 的 应 用 。Web 数据 挖掘 涉及 Web 技术 、 数 据 挖掘 技术 、 计 算 机 科 
学 与 技术 、 信 息 科 学 等 多 个 领域 ， 是 一 项 跨 学 科 的 综合 技术 。Web 数据 挖掘 可 以 从 页 面 的 
结构 或 Web 网 站 的 结构 中 寻找 知识 ， 从 网 页 内 容 中 抽取 有 价值 的 信息 和 知识 ， 从 记录 着 每 
个 用 户 点 击 情况 的 使 用 日 志 中 挖 握 用户 的 访问 模式 。 所 以 ,按照 Web 数据 挖掘 目的 和 对 象 
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的 不 同 ，Web 数据 挖掘 可 以 分 为 三 种 类 型 : Web 内 容 挖掘 (Web Content Mining，WCM)、 
Web 结构 挖掘 (Web Structure Mining，WSM) 和 Web 使 用 挖掘 (Web Usage Mining, WUM)， 
如 图 8.8 所 示 。 
1. Web 内 容 挖 掘 
Web 内 容 挖掘 是 对 Web 上 文档 的 内 容 进 行 分 析 , 从 Web 文档 内 容 中 发 现 知识 的 过 程 。 
Web 上 数据 的 格式 和 类 型 非常 丰富 ， 包 括 文本 、 声 音 、 图 像 、 图 形 、 视 频 等 多 媒体 数据 ， 
无 结构 的 平面 文本 、 用 HTML 标记 的 半 结 构 数 据 和 来 自 数据 库 的 结构 化 数据 。 这 样 根据 处 
理 的 内 容 将 Web 内 容 挖掘 分 为 Web 文本 挖掘 和 Web 多 媒体 挖掘 。Web 文本 挖掘 的 对 象 可 
以 是 无 结构 的 平面 自由 文本 、 半 结构 化 的 HTML 文本 和 结构 化 的 文本 数据 。 


2. Web 结构 挖掘 


Web 结构 挖掘 是 从 Web 页 面 的 组 织 结构 和 Web 页 面 之 间 的 链接 关系 中 发 现 信息 和 知 
识 的 过 程 。Web 的 页 面 结构 挖掘 是 对 页 面 进行 分 类 和 聚 类 ， 找 到 权威 页 面 和 中 心 页 面 ， 从 
而 提高 检索 的 性 能 。 同 时 还 可 以 用 来 指导 网 页 采集 工作 ， 提 高 采集 效率 。Web 的 组 织 结构 
挖掘 是 将 Web 看 作 一 个 有 向 图 ， 图 的 节点 为 Web 页 面 ， 图 的 边 是 页 面 间 的 链接 ， 利 用 图 
论 对 Web 的 拓扑 结构 进行 分 析 。 


3. Web 使 用 挖掘 


Web 使 用 挖掘 是 指 通过 对 用 户 的 Web 访问 日 志 数据 进行 分 析 , 从 而 发 现 感 兴趣 的 模式 
的 过 程 。Web 使 用 挖掘 一 般 通 过 一 般 的 用 户 访问 模式 跟踪 (General Access Pattern Tracking) 
和 个 性 化 的 使 用 记录 跟踪 (Customized Usage Tracking) 两 种 方式 分 析 日 志 数 据 来 理解 用 户 的 
行为 ， 通 过 阐明 日 志 记 录 中 的 规律 ， 可 以 识别 用 户 的 喜好 、 满 意 度 ， 可 以 发 现 潜在 用 户 和 
用 户 访问 Web 页 面 的 模式 ， 从 而 改进 Web 网 站 和 Web 页 面 的 结构 ， 以 及 为 用 户 提供 个 性 
化 的 服务 ， 增 强 网 站 的 服务 竞争 力 。Web 使 用 挖掘 中 使 用 的 数据 除了 服务 器 日 志 记录 外 ， 
还 包括 代理 服务 器 日 志 记 录 、 客户 端 日 志 记录 、 注册 信息 、 用 户 会 话 信息 、 交 易 信息 、Cookie 
中 的 信息 和 用 户 查 询 等 用 户 与 Web 网 站 之 间 的 所 有 可 能 的 交互 记录 。 


Web 数 据 挖掘 


| 


Web 内 容 挖掘 Web 结 构 挖掘 Web 使 用 挖掘 


无 结 、 一 般 | |Web| |Web 

a (3 

构 自 | 半 结 | 结构 页 面 | 组 织 访问 | | 站 | | 个 性 
构 化 | 化 广 结构 

由 六 | 2 汪 和 | 二 篇 和 | | 结 攀 模式 | | 点 | | 代数 

杠 | 痊 | 敬 挖 所 数据 | | 评 | | 据 控 

挖 所 | | 估 | | 气 


8.8 Web 数据 挖掘 类 型 
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8.2.2 ”Web 文本 挖掘 


1 

1 

l Web 文本 挖掘 可 以 看 成 是 对 基本 搜索 技术 的 功能 

! 展 ， 其 目标 是 对 页 面 进行 摘要 和 分 类 。 摘 要 是 基于 关键 字 

) 的， 可 以 通过 传统 的 页 面 文本 摘要 得 到 关键 字 的 信息 。 而 
分 类 是 将 Web 页 面 集 作为 训练 集 ， 根 据 页 面 内 容 文本 信息 
1 

1 

1 

1 

1 

1 


然 语言 

分 类 和 聚 类 
进行 有 指导 的 学 习 训练 ， 建 立 分 类 模型 ， 将 分 类 模型 用 于 相似 性 检索 
分 类 新 页 面 的 过 程 。Web 文本 挖掘 的 功能 模型 金字 塔 如 词语 联想 
图 8.9 所 示 。 其 中 ， 金 字 塔 的 顶端 为 最 复杂 的 Web 文本 挖 关键 词 


气功 能 ， 最 底 端 为 简单 的 Web 文本 挖掘 功能 。 本 节 重 点 介 
绍 金字 塔 中 间 的 功能 ， 即 相似 性 检索 和 分 类 及 聚 类 功能 。 图 8.9 Web 文本 挖掘 功能 模型 

Web 文本 数据 挖掘 包括 无 结构 自由 文本 挖掘 、 半 结构 化 文本 挖掘 和 结构 化 文本 挖掘 。 
其 中 结构 化 文本 挖掘 面向 数据 库 中 带 有 结构 的 数据 集 ， 这 在 前 面 章 节 已 经 详细 讨论 过 ， 本 
节 的 文本 挖掘 主要 指 从 无 结构 的 自由 格式 文件 或 用 HTML 标记 的 半 结 构 化 文本 文件 中 提取 
模式 的 过 程 。 与 前 面 章节 中 讨论 的 结构 化 文本 数据 挖 所 不同， 本 节 中 的 Web 文本 挖掘 的 主 
要 目的 不 是 理解 文本 的 内 容 , 而 是 希望 分 类 文本 数据 ， 即 确定 一 个 文本 是 否 符合 一 个 主题 。 
Web 文本 数据 挖掘 的 任务 是 建立 一 个 具有 二 元 分 类 输出 的 分 类 模型 ， 分 类 器 的 结果 是 YES 
和 NO。 

【 例 8.2】 希望 检索 涉及 “足球 世界 杯 ” 的 所 有 页 面 中 的 文章 。 

Web 文本 挖掘 的 基本 流程 是 :利用 文本 切 分 技术 (分 词 技术 ) 分 词 ， 抽 取 文 本 特征 ， 将 
文本 数据 转换 为 描述 文本 内 容 的 结构 化 数据 。 利 用 分 类 、 聚 类 和 关联 分 析 等 数据 挖掘 技术 ， 
建立 分 类 模型 , 应 用 模型 发 现 新 的 概念 或 联系 。 其 流程 图 如 图 8.10 所 示 。 其 中 的 TDT(Topic 
Detection and Tracking， 话 题 发 现 与 跟踪 ) 技 术 可 以 将 与 某 事件 相关 的 、 分 散 的 信息 汇集 并 
组 织 起 来 ， 其 关注 的 主要 是 对 热点 新 闻 、 突 发 事件 话题 进行 组 织 。 本 例 中 的 应 用 可 认为 是 


TDT 应 用 。 
文本 分 析 特征 提取 
> 检索 
i 特征 词 及 权重 
数字 处 理 分 类 A 
# [| | [es 
聚 类 
源 日 期 处 理 关键 字 摘要 办 
名 称 识别 i 过 滤 
词性 标注 特定 信息 抽取 TDT 
文本 结构 分 析 器 


8.10 ”Web 文本 挖掘 流程 
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| 号 
[1 TD 
解决 本 例 问题 的 一 般 步骤 如 下 。 
(1) 文本 分 析 (Text Analysis) 和 特征 提取 (Feature Extraction)。 收 集 涉及 “足球 世界 杯 ” 
的 文本 源 ， 使 用 分 词 技 术 ， 提 取 特 征 单词 ， 建 立 属性 字典 ， 只 选择 那些 在 文本 源 中 出 现 次 
数 最 少 的 单词 。 用 属性 表示 提取 的 特征 单词 ， 即 将 Web 页 面 集合 中 的 文本 信息 转化 为 一 个 
二 维 数据 表 ， 表 的 每 一 列 为 一 个 特征 ， 表 的 每 一 行为 一 个 Web 页 面 的 特征 集合 。 
(2) 训练 (Train)。 使 用 TFIDF 方法 对 训练 数据 集 进行 训练 。TFIDF(Term Frequency 
Inverse Document Frequency) 是 一 种 用 于 文本 挖掘 的 常用 加 权 技 术 。 它 是 一 种 统计 方法 ， 用 
来 评估 一 个 单词 对 于 一 个 文本 集中 的 一 篇 文章 的 重要 程度 。 单 词 的 重要 性 随 着 它 在 文章 中 
出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 文本 集中 出 现 的 频率 成 反比 下 降 。TFIDF 加 权 
的 各 种 形式 常 应 用 于 搜索 引擎 ， 作 为 文章 与 用 户 查询 之 间 相 关 程 度 的 度量 。 
(3) 过 滤 (Filter)。 删除 那些 在 文本 源 中 出 现 频 率 较 大 的 单词 , 它们 对 于 区 分 这 篇 文章 与 
其 他 文章 没有 利用 价值 。 
(4) 分 类 (Classify)。 检查 每 个 要 分 类 的 新 文章 的 所 选 属性 出 现 的 频 度 , 如 果 文 章 中 所 选 
属性 的 出 现 次 数 超过 了 预定 义 的 最 小 频率 值 ， 则 将 整 篇 文章 分 类 到 与 “足球 世界 杯 ” 主 题 
相关 的 文章 类 中 。 


8.2.3 Web 使 用 挖掘 


图 8.7 中 的 Web 使 用 挖掘 (也 称 Web 访问 模式 挖掘 或 Web 日 志 挖掘 )， 是 从 Web 的 访 
问 模式 中 获取 有 价值 的 信息 或 模式 的 过 程 ,是 对 用 户 访问 Web 时 在 服务 器 上 留 下 的 访问 记 
录 进 行 挖掘 。 

Web 的 基本 结构 是 B/S 结构 或 C/S 结构 ， 即 浏览 器 /服务 器 结构 。 其 工作 方式 采用 典型 
的 请 求 和 响应 方式 。 客 户 向 Web 服务 器 (或 通过 代理 服务 器 ) 发 出 访问 请 求 ，Web 服务 器 接 
收 到 请 求 后 ， 根 据 请 求 将 客户 要 求 的 信息 内 容 直 接 (或 通过 代理 ) 返 回 到 客户 端 。 浏 览 器 显 
示 得 到 的 页 面 ， 并 将 其 保存 在 本 地 高 速 缓存 中 。Web 服务 器 同时 将 访问 信息 和 状态 信息 等 
记录 到 日 志文 件 里 。 客 户 每 发 出 一 次 Web 请 求 ， 上 述 过 程 就 重复 一 次 ， 服 务 器 就 在 日 志文 
件 中 增加 一 条 相应 的 记录 。 因 此 , 日 志文 件 比较 详细 地 记载 了 用 户 对 Web 网 站 的 整个 浏览 
过 程 。 客 户 端 记录 的 是 单个 用 户 访问 多 站 点 的 信息 ， 代 理 服务 器 日 志 记 录 的 是 多 用 户 访问 
多 站 点 的 信息 ， 而 Web 服务 器 日 志 则 记录 了 多 用 户 访问 单 站 点 的 信息 。 因 此 ， 用 户 访问 模 
式 的 挖掘 可 以 分 为 基于 客户 端 访问 模式 的 挖掘 、 基 于 代理 服务 器 端 访问 模式 的 挖掘 和 基于 
Web 服务 器 端 访问 模式 的 挖掘 三 种 类 型 。 

根据 挖掘 目的 和 应 用 方向 ， 控 掘 的 用 户 访问 模式 的 侧重 点 也 不 尽 相同 。Web 日 志 挖掘 
的 目的 是 在 海量 的 Web 日 志 数据 中 自动 、 快 速 地 发 现 用 户 的 访问 模式 ， 如 频繁 访问 路 径 、 
频繁 访问 页 组 、 用 户 聚 类 等 。 


1. 基于 Web 日 志 的 数据 挖掘 处 理 过 程 


随 着 电子 商务 的 兴起 ， 基 于 互联 网 的 商业 贸易 活动 越 来 越 活跃 ， 消 费 者 网 上 购物 、 商 
品 生产 者 或 经 销 商 之 间 的 网 上 交易 、 在 线 电 子 支付 以 及 各 种 商务 活动 和 相关 的 综合 服务 活 
动 已 经 大 范围 地 取代 了 传统 方式 的 商业 模式 。 通 过 网 络 开 展 贸易 活动 的 企业 一 般 希 望 通 过 
电子 商务 营销 达到 销售 的 最 大 化 , 基于 Web 日 志 的 数据 挖掘 能 够 帮助 企业 通过 分 析 用 户 的 
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行为 ， 从 而 优化 Web 网 站 或 网 页 设计 ， 以 达到 最 大 化 销售 的 目的 。 例 如 ， 通 过 关联 分 析 ， 
将 用 户 一 般 会 同时 购买 的 商品 同时 显示 在 一 个 页 面 上 ， 提 高 用 户 的 关注 度 ， 使 企业 能 够 最 
大 程度 上 获取 利益 。 

图 8.11 给 出 了 以 KDD 处 理 模型 完成 基于 Web 日 志 的 数据 挖掘 的 过 程 示意 图 。 
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图 8.11 基于 Web 日 志 的 数据 挖掘 处 理 过 程 


1) 定义 目标 

KDD 处 理 过 程 的 第 一 步 是 建立 一 个 或 多 个 目标 。 对 于 Web 日 志 挖掘 ， 可 能 的 目标 有 : 

(1) 优化 页 面 间 结构 ， 减 少 用 户 购物 交易 之 前 所 访问 的 网 页 的 平均 数目 ， 减 少 在 购买 
项 上 的 返回 总 数 。 

(2) 增加 每 个 客户 会 话 所 浏览 的 网 页 的 平均 数目 。 

(3) 增加 访问 者 平均 保持 率 。 

(4) 为 客户 提供 个 性 化 网 页 , 确定 用 户 可 能 一 起 购买 或 浏览 的 产品 , 增加 Web 服务 效率 。 

2) 准备 数据 

Web 的 用 户 会 话 (User Sessions) 结 果 数据 都 存储 在 Web 服务 器 日 志 (Web Server Logs) 
文件 中 ， 这 个 服务 器 日 志文 件 一 般 包含 了 用 户 浏览 的 网 页 和 沿 着 网 页 链接 所 产生 的 点 击 流 
(Click Stream) 序 列 的 信息 。 

服务 器 日 志文 件 一 般 是 以 扩展 的 一 般 日 志文 件 形式 (Extended Common Log File Format) 
来 提供 数据 ， 数 据 字 段 一 般 有 : 主机 地 址 、 上 日期/ 时间、 请求、 状态 、 字 节 、 访 问 页 和 浏览 
器 类 型 ， 可 以 从 这 些 字段 中 提取 每 个 用 户 在 浏览 网 站 时 所 产生 的 点 击 流 序列 。 

数据 准备 工作 就 是 从 Web 服务 器 日 志 中 提取 数据 ,创建 用 于 数据 挖掘 的 文件 ， 该 文件 
被 称 为 会 话 文件 (Session File)。 会 话 文件 包含 了 几 条 到 几 千 条 的 记录 , 每 条 记录 表示 一 个 用 
户 会 话 实例 。 用 户 会 话 实例 是 一 个 用 户 向 一 个 Web 服务 器 请 求 页 面 浏 览 (Pageview) 的 完整 
记录 。 页 面 浏览 由 一 个 或 多 个 页 面 文件 所 构成 ， 每 个 页 面 在 Web 浏览 器 上 形成 一 个 显示 窗 
口 。 在 数据 挖掘 过 程 中 ， 每 个 页 面 浏览 由 一 个 用 于 标识 目标 的 唯一 的 统一 资源 标识 符 
(URD 所 标识 。 

为 数据 挖掘 准备 会 话 文件 不 是 一 件 容易 的 事 ， 一 般 具 有 以 下 三 点 困难 。 

(1) 区 别 用 户 的 困难 。 从 日 志文 件 所 列 的 服务 器 请 求 的 所 有 会 话 中 识别 出 每 个 用 户 与 
该 服务 器 的 会 话 是 一 项 困难 的 任务 。 一 般 可 以 借助 主机 地 址 和 Cookie。 但 是 多 个 用 户 可 能 
从 相同 的 主机 访问 Web 站 点 ， 使 用 主机 地 址 来 区 分 用 户 是 不 可 靠 的 。 若 主机 地 址 能 够 与 访 
问 页 结合 起 来 ， 那 么 将 一 个 用 户 会 话 与 其 他 会 话 区 别 开 来 就 容易 多 了 。Cookie 是 存储 在 用 
户 计 算 机 中 的 一 个 数据 文件 ， 它 包含 了 用 户 访 问 Web 站 点 的 会 话 信息 。 若 用 户 允 许 使 
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Cookies， 就 可 以 通过 Cookie 来 区 分 用 户 。 但 是 ， 为 了 保护 个 人 隐私 ， 许 多 用 户 都 不 愿意 
授权 给 Web 站 点 使 其 能 够 在 他 们 的 机 器 上 存储 Cookie, 所 以 依赖 Cookie 中 的 信息 区 别 客 
户 也 是 有 困难 的 。 

(2) 筛选 日 志 项 的 挑战 。 用 户 页 面 请 求 一 般 会 通过 多 种 服务 器 类 型 产生 多 个 日 志 项 ， 
必须 通过 技术 识别 出 与 数据 挖掘 目标 不 相关 的 日 志 项 ， 如 图 像 和 广告 服务 器 所 产生 的 日 志 
项 ， 使 它们 不 会 成 为 会 话 文件 的 一 部 分 。 

(3) 添加 新 变量 的 考虑 。 有 时 候 需 要 添加 新 的 变量 到 会 话 文件 中 ， 这 些 变量 是 与 数据 
挖掘 目标 相关 ， 但 原始 会 话 文件 中 又 没有 的 日 志 项 。 这 些 日 志 项 的 设计 和 数据 采集 是 数据 
准备 阶段 的 一 项 重要 工作 。 

3) 挖掘 数据 

用 于 数据 挖掘 的 会 话 文件 创建 完成 后 ， 选 择 合适 的 数据 挖掘 算法 ， 将 会 话 数据 提交 给 
这 个 算法 执行 数据 挖掘 。 选 择 的 数据 算法 可 以 是 前 面 章节 介绍 的 传统 的 机 器 学 习 和 统计 技 
术 ， 如 关联 分 析 技 术 和 聚 类 技术 ， 也 可 以 使 用 一 些 针 对 Web 数据 挖掘 而 设计 的 专用 算法 。 

4) 解释 和 评估 结果 

会 话 文件 中 的 一 个 实例 表示 一 个 用 户 在 一 次 会 话 过程 中 的 页 面 浏 览 行为 。 下 面 通过 一 
个 例子 来 说 明 如 何 解释 和 评估 基于 Web 的 数据 挖掘 的 结果 。 

【 例 8.3】 表 8.3 给 出 了 某 个 会 话 文件 中 的 实例 ， 使 用 关联 规则 技术 来 解释 这 个 基于 
Web 的 数据 挖掘 会 话 的 结果 。 


表 8.3 ” 某 会 话 文件 中 的 实例 


会 话 实例 ID 点 击 流 
五 已 一 太一 五 一 五 一 已 一 五 一 五 
1 RBBBIBIRIRIR, 
五 五 一 五 一 玉 一 太一 五 一 太一 五 一 瑟 
I BRIPBPIRIRIPIB 
和 PB3RFR 一 已 一 五 一 五 


表 83 中 ，P 为 一 个 页 面 浏览 (Pageview)。 假 设 通过 关联 分 析 ， 得 到 如 下 规则 : 

IF >P&P&P THEND, 

(置信 和 度 : 4/5 = 80% ) 

规则 说 明 ， 如 果 用 户 点 击 了 P、 忆 和 忆 ， 那 么 他 也 会 点 击 P,。 规 则 的 置信 度 为 4/5， 
表示 会 话 文件 中 的 5 个 实例 中 有 4 个 实例 的 已 、 已 、 已 和 已, 同时 出 现 ， 即 有 80% 的 概率 
能 够 相信 用 户 访问 了 P、 忆 和 忆 ， 同 时 也 会 访问 P,。 

规则 的 价值 体现 在 以 下 两 个 方面 。 

(1) 优化 Web 页 面 间 的 结构 。 若 在 已、 已、 已 和 已 之 间 不 存在 直接 的 链接 ， 那 么 根 
据 以 上 挖掘 结果 ， 应 该 在 这 四 个 页 面 之 间 添 加 直接 的 链接 ， 来 改善 网 站 的 结构 。 

(2) 个 性 化 页 面 浏览 。 若 发 现 用 户 的 页 面 访问 行为 符合 规则 , 则 可 以 认为 该 用 户 对 P, 感 
兴趣 ， 可 以 将 书 添加 到 推荐 的 页 面 浏览 列表 中 ， 自 动 提交 给 用 户 ， 从 而 个 性 化 该 用 户 所 浏 
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【 例 8.4】 对 于 表 8.3 的 会 话 文件 ， 使 用 凝聚 聚 类 方法 将 实例 聚 类 到 合适 的 簇 中 。 

可 以 使 用 无 指导 聚 类 技术 对 会 话 文件 中 的 实例 进行 聚 类 分 析 ， 从 而 根据 用 户 的 页 面 济 
览 行为 ， 区 分 不 同类 别 的 用 户 。 聚 类 分 析 中 的 相似 度 度量 方法 有 很 多 ， 这 里 使 用 凝聚 聚 类 
方法 ， 并 使 用 式 (8.2) 中 的 实例 相似 度 计 算 公 式 来 计算 实例 的 相似 度 值 。 第 一 次 迭代 的 计算 
结果 显示 在 表 8.4 中 。 


相似 性 值 (1,,1) = 


工 和 7, 两 个 实例 共有 的 浏览 页 面 的 个 数 


(8.2) 


实例 中 的 浏览 页 面 总 数 
表 8.5 ”凝聚 聚 类 的 第 一 次 迭代 的 相似 性 值 计算 结 果 


相似 性 值 
五 | 
三 
六 
1, 
流 


合并 两 个 最 相似 的 实例 到 一 个 马 中 。 从 表 8.4 中 可 以 看 到 工 与 这 对 实例 显示 出 最 高 
的 相似 值 0.4， 可 以 进行 合并 。 至 此 ， 第 一 次 兴 代 后 ， 产 生 了 三 个 单 实例 的 簇 ()、(Z)、 
(z) 和 一 个 具有 双 实例 的 饶 ( 世 ,二 )。 

在 第 二 迭代 中 ， 计 算 两 个 马 之 间 的 相似 度 值 。 计 算 两 个 马 之 间 的 相似 度 值 的 方法 有 多 
种 。 本 例 通过 计算 两 个 簇 中 所 有 实例 平均 相似 度 得 到 簇 之 间 的 相似 度 。 如 簇 ( 工 , 荆 ) 与 簇 () 
的 相似 度 值 为 14/23-=0.609。 则 第 二 次 兴 代 的 计算 结果 显示 在 表 8.5 中 。 


表 8.5 ”凝聚 聚 类 的 第 二 次 迭代 的 相似 性 值 计算 结果 


合并 两 个 最 相似 的 艇 I 与 1 ， 产 生 两 个 单 实例 簇 (I )、( 工 ) 和 一 个 三 实例 簇 ( 了 ,L ,1,)。 
继续 簇 的 合并 过 程 直 到 所 有 实例 合并 到 一 个 簇 中 。 根 据 一 些 统计 技术 或 启发 式 技术 确定 最 
后 的 徐 ， 即 确定 最 后 的 用 户 分 类 。 

还 可 以 将 凝聚 聚 类 作为 其 他 聚 类 技术 的 预 处 理 技术 ， 再 使 用 其 他 聚 类 技术 进行 用 户 

除了 在 Web 数据 中 发 现 模式 外 ， 还 可 以 将 发 生 在 Web 站 点 上 的 活动 进行 汇总 统计 ， 
如 访问 Web 页 面 的 频率 、 商 品 被 添加 到 购物 篮 又 被 删除 的 次 数 、 最 为 畅销 的 商品 等 。 通 过 
对 这 些 统计 汇总 信息 进行 分 析 ， 也 能 获取 一 些 想 要 的 信息 。 目 前 ， 一 些 Web 站 点 可 以 自由 
下 载 Web 服务 器 日 志 分 析 ， 它 们 能 够 提供 用 户 访问 Web 站 点 的 活动 日 志 。 

5) 应 用 结果 

将 基于 Web 的 数据 挖掘 结果 应 用 于 解决 实际 问题 ， 如 : 
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(1) 利用 聚 类 所 得 到 的 不 同 用 户 的 行为 特征 ， 来 个 性 化 用 户 访问 页 面 。 

(2) 利用 关联 分 析 所 得 到 的 用 户 访问 页 面 的 关联 结果 ， 优 化 Web 站 点 链接 ， 使 之 更 好 
地 反映 用 户 常用 的 路 径 。 

(3) 根据 用 户 分 类 ， 进 行 有 针对 性 的 网 络 广告 促销 或 邮件 促销 。 

(4) 对 用 户 购买 商品 进行 关联 分 析 ， 将 用 户 可 能 会 一 起 购买 的 商品 推荐 给 用 户 ， 删 除 
用 户 不 感 兴趣 的 产品 。 

(5) 根据 商品 畅销 程度 ， 扩 充 畅 销 商品 的 供应 。 


2. Web 站 点 评估 


一 般 情况 下 ， 用 户 从 以 下 三 个 主要 方面 来 看 待 一 个 网 站 。 

(1) 网 站 所 提供 的 产品 或 服务 。 

(2) 单个 Web 页 的 设计 。 

(3) 整个 网 站 的 设计 。 

其 中 ， 网 页 和 网 站 设计 是 相关 的 ， 网 站 设计 能 够 表达 出 页 面 链接 的 直观 性 。 网 站 的 成 
功 最 终 依赖 于 用 户 群体 如 何 看 待 它 。 

所 以 ， 在 上 一 节 使 用 Web 日 志 进 行 数据 挖掘 中 ， 要 实现 的 目标 归纳 为 两 个 方面 。 

(1) 网 站 评估 。 网 站 评估 是 检验 Web 设计 者 的 意图 是 否 符合 用 户 的 期 望 。 

(2) 个 性 化 服务 。 个 性 化 服务 是 指 为 一 个 特定 用 户 或 一 个 特定 用 户 群 体 提供 适用 于 他 
或 他 们 的 个 性 化 的 产品 和 网 页 的 显示 功能 。 

Web 站 点 评估 是 确定 站 点 的 实际 使 用 是 否 符合 其 设计 者 的 意图 。 如 果 站 点 访问 者 的 访 
问 路 径 不 像 设计 者 所 希望 的 那样 ， 那 么 该 网 站 可 能 被 认为 是 导航 困难 的 ， 此 时 ，Web 网 站 
设计 者 必须 考虑 改变 网 站 结构 以 更 好 地 满足 用 户 的 需要 。 

以 评估 网 站 为 目标 的 Web 数据 挖掘 通过 确定 用 户 的 一 般 访 问 模式 和 用 户 群 体 前 进 的 路 
线 来 实现 网 站 评估 。 应 该 注意 , 与 上 一 节 中 的 Web 数据 挖掘 应 用 不 同 的 一 点 是 ，Web 站 点 
评估 除了 需要 对 浏览 页 面 进行 聚 类 来 区 别 不 同 的 用 户 浏览 模式 ， 从 而 检查 Web 站 点 是 否 通 
过 提供 这 些 页 面 的 链接 组 合 而 方便 用 户 使 用 之 外 ， 还 应 该 关注 页 面 的 浏览 顺序 ， 从 而 发 现 
最 好 的 链接 顺序 。 此 时 的 基于 Web 日 志 的 数据 挖掘 问题 成 为 序列 识别 问题 ， 这 类 问题 使 用 
一 种 被 称 为 序列 挖掘 器 (Sequence Minen) 的 特殊 算法 来 解决 。 序 列 挖掘 器 能 够 发 现 以 相同 顺 
序 出 现 的 被 频繁 访问 的 页 面 。 


3. 个 性 化 服务 


基于 Web 日 志 的 数据 挖掘 的 另 一 方面 的 目标 是 提供 个 性 化 服务 (Personalization 
Service)。 个 性 化 服务 是 一 种 自动 推 给 用 户 的 服务 ， 不 需要 用 户主 动 地 选择 或 寻找 他 们 感 兴 
趣 的 内 容 。 过 去 的 个 性 化 服务 是 通过 让 用 户 填写 他 们 感 兴趣 内 容 的 表单 ，Web 网 站 的 设计 
者 根据 这 些 表单 ， 了 解 用 户 需 求 和 爱好 ， 在 此 基础 上 提供 满足 个 人 需要 的 服务 。 这 种 方法 
存在 两 个 问题 : 一 是 用 户 可 能 对 自己 的 真实 需求 和 爱好 并 不 充分 了 解 ， 使 得 表单 内 容 不 能 
准确 反映 用 户 的 需求 和 爱好 ; 二 是 用 户 对 于 填写 相关 信息 的 抵触 情绪 也 可 能 致使 表单 不 能 
完整 反映 个 人 需求 和 爱好 。 所 以 , 使 用 数据 挖掘 技术 对 用 户 已 经 产生 的 访问 行为 进行 分 析 ， 
发 现 不 同类 型 用 户 的 不 同 的 需求 模式 和 爱好 习惯 ， 自 动 地 进行 个 性 化 分 析 和 提供 服务 。 
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数 据 榨 查 导论 
图 8.12 显示 了 基于 Web 日 志 的 个 性 化 服务 模型 的 建立 过 程 。 
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和 特征 文件 应 用 一 一 
定义 目标 ”>| 数据 准备 ”| ”| Web 数 据 挖 所 使 用 特征 文件 |- 妆 提 供 个 性 化 服务 
数据 挖掘 算法 


8.12 ”基于 Web 日 志 的 个 性 化 服务 模型 建立 过 程 


其 中 ， 使 用 数据 挖掘 的 关联 分 析 和 聚 类 技术 产生 关联 规则 或 秘 ， 通 过 关联 规则 或 对 入 
的 解释 ， 建 立 用 户 访问 Web 站 点 的 使 用 特征 文件 (Usage Profiles，UP)， 使 用 特征 文件 为 不 
同 的 用 户 自动 提供 个 性 化 服务 。 创 建 UP 可 以 使 用 两 种 Web 特征 化 技术 。 

(1) 使 用 关联 分 析 生 成 关联 规则 ， 直 接 创建 UP。 如 例 8.3。 

(2) 使 用 聚 类 技术 建立 秘 ， 通 过 对 各 个 秘 的 解释 ， 发 现 各 个 秘 中 的 概念 来 创建 UP。 方 
法 如 下 。 

@ 使 用 式 (8.3) 计 算 每 个 页 面 浏览 已 对 于 息 C 的 代表 性 度量 值 。 

@ 设 定 一 个 阅 值 ， 对 于 每 个 马 ， 只 有 满足 阔 值 的 那些 页 面 浏览 才能 使 用 UP。 满 足 赣 
值 的 页 面 作为 该 艇 的 代表 性 浏览 页 面 。 

图 为 每 个 浏览 页 面 指定 一 个 权 值 来 反映 其 出 现在 所 有 会 话 实例 中 的 频 度 , 该 权 值 用 来 
计算 每 个 用 户 的 页 面 浏览 推荐 值 ， 对 于 每 个 用 户 ， 只 有 那些 具有 推荐 值 高 于 阔 值 的 浏览 页 
面 才 可 能 作为 推荐 页 面 推荐 给 用 户 。 

使 用 上 述 两 种 方法 创建 UP 后 ， 利 用 Web 个 性 化 推荐 引擎 ， 将 UP 与 当前 用 户 的 Web 
访问 行为 相 比 较 ， 将 希望 推荐 给 用 户 的 链接 页 面 提供 给 该 用 户 。 

本 “页 面 P 出 现在 侯 C 中 所 有 会 话 实例 的 总 次 数 
5) 艇 C 中 会 话 实例 的 总 个 数 


T 


(8.3) 


4. Web 站 点 自 适 应 


实际 上 ， 用 户 访 问 Web 站 点 的 兴趣 是 在 不 断 变化 的 ， 需 要 对 用 户 需 求 和 爱好 的 变化 情 
况 进 行 监控 ， 并 根据 实际 情况 调整 页 面 链接 结构 ， 来 适应 用 户 需求 的 变化 。 

可 以 使 用 两 种 方式 来 调整 Web 网 站 的 结构 ， 增 删 页 面 链接 。 一 是 依靠 人 工 完成 ， 这 种 
方式 不 能 实现 需求 变化 的 实时 监控 和 页 面 链接 的 准确 高 效 的 调整 。 二 是 使 用 数据 挖掘 自动 
化 这 个 处 理 过 程 。 能 够 通过 数据 挖掘 学 习 模型 半自动 地 改进 内 部 结构 以 及 表示 方法 的 Web 
站 点 被 称 为 自 适应 Web 站 点 (Adaptive Web Sites)。 

在 自 适 应 Web 站 点 的 内 部 核心 处 有 一 组 索引 页 。 索 引 页 (Index Page) 是 一 个 Web 页 ， 
该 页 能 够 链接 到 详细 描述 某 个 主题 的 一 组 页 面 。 这 样 自动 调整 Web 站 点 内 部 结构 的 问题 就 
成 为 索引 页 的 合成 问题 , 即 对 于 一 个 Web 站 点 和 一 个 访问 者 的 访问 日 志 , 创建 新 的 索引 页 ， 
该 索引 页 包含 当前 未 链接 的 、 需 要 链接 的 页 面 的 链接 集合 。 合 成 索引 页 的 工作 可 由 一 种 自 
动 化 页 面 合成 系统 一 一 索引 发 现 者 (Index Finder) 来 完成 。 索 引发 现 者 使 用 聚 类 技术 生成 
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Web 站 点 的 候选 索引 页 ， 并 为 每 个 候选 索引 页 创建 了 一 个 基于 规则 的 描述 。 若 Web 站 点 所 
有 者 决定 接受 这 些 候 选 页 ， 索 引发 现 者 则 创建 一 个 页 面 并 自动 将 其 添加 到 Web 站 点 中 去 。 
Web 站 点 所 有 者 给 出 这 个 页 面 的 标题 ， 并 确定 该 页 面 位 于 站 点 的 什么 位 置 。 


8.3 多 模型 分 类 技术 


8.3.1 装 袋 技术 


提高 决策 的 正确 性 的 通常 做 法 是 建立 多 个 数据 挖掘 模型 , 综合 应 用 多 个 模型 进行 决策 。 
其 中 每 个 模型 都 是 使 用 相同 的 数据 挖掘 算法 来 建立 ， 模 型 的 区 别 在 于 选取 同一 个 数据 集中 
不 同 的 训练 实例 进行 训练 。 

装 袋 技术 是 使 用 相同 数据 集 的 不 同 实例 子 集 作为 训练 实例 ， 建 立 多 个 模型 用 于 决策 支 
持 的 著名 方法 之 一 。 装 袋 (Bagging) 由 雷 奥 ， 布 莱 曼 (Leo Breiman) 于 1996 年 提出 ， 是 一 种 有 
指导 的 学 习 方 法 。 其 基本 思想 是 使 用 多 个 模型 分 类 新 实例 ， 这 多 个 模型 在 新 实例 的 分 类 中 
拥有 相同 的 权重 。 用 于 分 类 的 多 个 模型 都 使 用 了 相同 的 数据 挖掘 技术 来 创建 ， 模 型 之 间 的 
区 别 在 于 从 相同 的 数据 集中 选取 不 同 的 训练 实例 。 装 袋 的 工作 过 程 如 下 。 

(1) 从 数据 集中 随机 选取 若干 大 小 相同 的 训练 数据 集 。 实 例 用 置换 方式 来 取样 ， 使 得 
每 个 实例 可 能 出 现在 多 个 训练 集中 。 

(2) 应 用 数据 挖掘 算法 建立 每 个 训练 实例 的 分 类 模型 ，N 个 训练 数据 集 产 生 N 个 分 
类 模型 。 

(3) 分 类 未 知 实例 I。 将 工 提交 给 每 个 分 类 器 ， 每 个 分 类 器 允许 投票 一 次 ， 实 例 被 放 在 
获得 最 多 投票 的 类 中 。 

装 袋 技术 除了 可 以 解决 分 类 问题 外 ， 还 可 以 应 用 在 估计 和 预测 问题 中 。 


8.3.2 推进 技术 


推进 (Boosting) 技 术 是 另 一 个 著名 的 使 用 多 个 模型 投票 选 出 新 实例 的 分 类 技术 。 该 技术 
由 约 阿 夫 。 弗 罗 因 德 (Yoav Freund) 和 罗伯特 。 夏 皮尔 Robert(Schapire) 于 1996 年 提出 。 它 比 
装 袋 技 术 更 为 复杂 ， 与 装 袋 技术 也 有 如 下 不 同 之 处 。 

(1) 装 袋 技术 中 多 个 模型 之 间 的 变化 是 由 于 选择 相同 数据 集 的 不 同 训练 实例 集 造成 ， 
推进 技术 与 之 不 同 ， 每 个 新 模型 的 建立 是 基于 前 面 模型 的 结果 ， 新 模型 关注 于 分 类 前 面 模 
型 未 能 正确 分 类 的 实例 ， 所 以 最 后 一 个 模型 关注 于 正确 分 类 前 面 所 有 模型 未 能 正确 分 类 的 
那些 实例 。 区 分 已 经 和 未 能 被 前 面 模型 正确 分 类 的 实例 的 方法 是 为 每 个 实例 指定 不 同 的 权 
重 。 训 练 开 始 时 ， 所 有 实例 被 指定 为 相同 的 权重 。 建 立 最 后 一 个 模型 后 ， 那 些 被 模型 正确 
分 类 的 实例 的 权重 减少 ， 而 被 错误 分 类 的 实例 的 权重 增加 。 

(2) 装 袋 技 术 中 多 个 模型 对 于 新 实例 的 分 类 投票 权力 是 一 样 的 ， 推 进 技术 与 之 不 同 ， 
每 个 模型 被 赋予 的 权重 是 基于 其 训练 数据 上 的 性 能 ， 在 未 知 实例 的 分 类 中 执行 效果 较 好 的 
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模型 被 赋予 了 更 多 的 权力 。 
推进 技术 建立 的 模型 是 在 分 类 训练 数据 的 能 力 上 彼此 补充 。 


据 。 此 时 ， 有 如 下 解决 办 法 。 
(1) 为 所 有 训练 数据 赋予 相同 的 权重 ， 建 立 第 一 个 分 类 模型 。 
(2) 增加 未 被 正确 分 类 的 实例 的 权重 ， 减 少 被 正确 分 类 的 实例 的 权重 。 


地 选取 具有 较 高 权重 值 的 实例 而 不 是 具有 较 低 权重 值 的 实例 。 
(4) 对 每 个 新 模型 重复 上 述 步 又 。 


即便 数据 挖掘 算法 在 模型 建立 过 程 中 实际 上 并 未 使 用 权重 值 。 


推进 技术 在 应 用 过 程 中 存在 着 一 个 重要 的 问题 ， 即 数据 挖掘 算法 不 能 分 类 加 权 训 练 数 


(3) 在 用 置换 法 从 以 前 的 训练 数据 中 取样 来 创建 新 的 训练 数据 集 时 ， 有 意识 更 为 频繁 


由 于 未 被 正确 分 类 的 实例 被 更 频繁 地 取样 , 权重 值 仍然 在 模型 建立 过 程 中 扮演 着 角色 ， 


本 章 小 结 
本 章 内 容 概述 如 图 8.13 所 示 。 
__ 时间 序列 基本 概念 
/ 时 间 序列 分 析 与 挖 所 
; `、 时 间 序列 数据 控 握 的 处 理 过 程 
时 间 序 列 分 析 。 “一 CC 生性 回归 分 析 解决 时 间 序列 问题 
“CC 种 经 网 络 技术 解决 时 间 序 列 问题 
时 间 序 列 和 _Web 内 容 挖 所 
基于 Web 的 挖 气 /”_Web 结 构 挖 气 
/ MK we 
\ | 
WE 
| \ _ 基 于 Web 日 志 的 挖 据 过 程 
\ \ a Web 让 点 评估 
多 模型 分 类 技术 “| 一 人 EB 务 
\ \、 Web 站 点 自 适应 
< 
> 


时 间 序 列 分 析 中 的 数据 包含 了 与 时 间 有 关 的 属性 , 分 析 的 目的 一 般 是 为 预测 输出 结果 。 
可 以 使 用 包括 线性 回归 方程 等 统计 技术 和 神经 网 络 等 机 器 学 习 方法 进行 数据 挖掘 ， 来 解决 


时 间 序 列 问题 。 
随 着 网 络 通信 技术 的 发 展 和 广泛 应 用 ， 以 及 大 数据 时 代 的 到 来 ，Web 网 站 
大 的 数据 源 ， 基 于 Web 的 数据 挖掘 也 成 为 近 些 年 的 研究 和 应 用 


jm 


E 在 成 为 最 


重点 。Web 数据 挖掘 可 以 分 


为 内 容 挖 掘 、 结 构 挖 掘 和 使 用 挖掘 三 大 类 。 其 中 内 容 挖掘 主要 关注 的 是 文本 数据 挖掘， 它 
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涉及 从 无 格式 的 自由 文件 中 提取 模式 。 其 基本 数据 挖掘 算法 涉及 创建 一 个 频繁 出 现 的 单词 
的 属性 字典 ， 过 滤 掉 被 认为 没有 什么 价值 的 普通 单词 ， 使 用 更 改 的 字典 分 类 未 知 内 容 的 新 
文章 。Web 使 用 挖掘 主要 是 根据 Web 服务 器 日 志文 件 创建 会 话 文件 。 服务 器 日 志文 件 一 般 
包含 了 用 户 浏览 的 网 页 和 沿 着 网 页 链接 所 产生 的 点 击 流 序列 的 信息 ， 提 取 创 建 的 会 话 文件 
中 包含 多 个 实例 ， 每 个 实例 为 一 个 用 户 请 求 页 面 浏 览 的 会 话 记录 。 使 用 会 话 文件 进行 分 类 
或 聚 类 以 及 关联 分 析 ， 可 得 到 用 户 访问 模式 、 用 户 分 类 等 数据 挖掘 结果 ， 该 结果 可 应 用 于 
解决 实际 问题 。 

Web 使 用 数据 挖掘 要 解决 的 实际 问题 包括 网 站 评估 和 个 性 化 服务 。Web 站 点 的 访问 用 
户 如 何 看 待 该 网 站 是 网 站 成 功 的 决定 因素 之 一 。 数据 挖掘 有 助 于 发 现 用 户 对 Web 站 点 的 感 
受 , 根据 挖掘 的 结果 可 以 改进 网 站 链接 结构 和 为 用 户 提供 个 性 化 服务 。 在 技术 支持 下 , Web 
站 点 还 可 以 做 到 自 适应 地 调整 结构 和 改善 表达 方法 。 

多 模型 方法 ， 包 括 装 袋 和 推进 技术 是 改善 模型 应 用 性 能 ， 提 高 决策 正确 性 的 途径 。 


习 ”是 


1. 对 你 感 兴趣 的 网 站 从 以 下 几 个 方面 进行 评估 。 

(1) 在 网 站 中 能 够 很 容易 或 不 容易 找到 所 需要 的 信息 

(2) 网 站 中 提供 的 信息 大 多 数 是 令 人 感 兴 超 的 或 根本 令 人 不 感 兴趣 . 

(3) 找到 需要 的 信息 打开 的 链接 较 多 或 较 少 ， 层 次 较 深 或 较 浅 。 

(4) 广告 较 多 或 较 少 ， 多 数 广告 是 或 不 是 令 人 感 兴趣 的 。 

(5) 若 为 电子 商务 网 站 ， 网 站 能 够 将 感 兴趣 的 商品 放 在 一 起 进行 推荐 或 不 推荐 。 

(6) 其 他 方面 。 

2. 试 述 装 袋 技术 和 推进 技术 的 相似 点 和 不 同 点 。 

3. 考虑 一 个 电脑 装机 DIY 网 站 的 页 面 链接 结构 ， 设 计 几 个 回答 新 手 装机 问题 的 典型 
链接 路 径 。 

4. 收集 近 20 年 菜 城市 的 房价 信息 ， 建 立时 间 序 列 数据 集 ， 使 用 MS Excel 的 LINEST 
蚊 数 创建 一 个 线性 回归 方程 来 预测 2014 年 的 房价 . 可 以 使 用 前 5 年 的 实际 房价 值 对 模型 进 
行 检验 。 

5. 使 用 Weka 的 神经 网 络 技术 ， 重 新 完成 第 4 题 。 

6. 收集 你 喜欢 的 NBA 球星 在 过 去 一 些 年 里 的 赛季 表现 ， 预 测 他 在 将 要 到 来 的 这 个 赛 
季 中 的 可 能 表现 。 这 是 一 个 时 间 序 列 问题 ， 需 要 考虑 与 表现 相关 的 属性 集合 (本 人 的 、 本 队 
的 和 对 手 的 情况 ) 和 合适 的 时 间 间 隔 以 及 对 未 来 最 近 预 测 性 的 属性 集合 。 

7. 对 你 所 喜欢 的 股票 的 价格 、 歌 曲 的 排行 执行 时 间 序列 分 析 。 

8.， 对 你 的 成 绩 或 绩 点 (如 GPA) 进 行 时 间 序 列 分 析 
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附录 A 词 汇 表 


第 1 章 认识 数据 挖掘 


数据 挖掘 (Data Mining): 利用 一 种 或 多 种 计算 机 学 习 技术 ， 从 数据 中 自动 分 析 并 
提取 信息 的 过 程 。 数 据 挖掘 的 目的 是 寻找 和 发 现 数据 中 潜在 的 有 价值 的 信息 、 知 
识 、 规 律 、 联 系 和 模式 。 数 据 挖掘 与 计算 机 科学 有 关 ， 通 常 使 用 机 器 学 习 、 统 计 
学 、 联 机 分 析 处 理 、 专 家 系统 和 模式 识别 等 多 种 方法 来 实现 。 

浅 知识 (Shallow Knowledge): 存储 在 数据 库 中 、 可 通过 查询 和 搜索 就 能 够 获取 的 
知识 。 

机 器 学 习 (Machine Learning，ML): 模拟 人 类 的 学 习 方法 , 来 解决 计算 机 获取 知识 
问题 的 方法 。 

概念 (Concepb: 具有 某 些 共同 特征 的 对 象 、 符 号 或 事件 的 集合 。 

归纳 学 习 (Induction-Based Learning): 人 类 学 习 的 最 重要 方式 之 一 。 通 过 对 事物 的 
特定 实例 的 观察 、 对 所 掌握 的 已 有 经 验 材料 的 研究 ， 从 归纳 中 获取 和 探索 新 知识 ， 
并 常常 以 概念 的 形式 表现 出 来 。 

有 指导 (监督 ) 的 学 习 (Supervised Leaming): 归纳 学 习 是 为 了 建立 一 个 用 于 分 类 或 
预测 的 模型 ， 而 通过 对 大 量 已 知 分 类 或 输出 结果 值 的 实例 进行 训练 ， 调 整 分 类 模 
型 的 结构 ， 达 到 建立 能 够 准确 分 类 或 预测 未 知 模型 的 目的 。 这 种 基于 归纳 的 概念 
学 习 过 程 ， 被 称 为 有 指导 (监督 ) 的 学 习 。 

实例 (Instance): 用 于 有 指导 学 习 的 样本 数据 。 

训练 实例 (Training Instance): 用 于 训练 的 实例 。 

检验 实例 (Test Instance): 用 来 判断 模型 是 否 能 够 很 好 地 应 用 在 未 知 实例 的 分 类 或 
预测 中 的 实例 。 

属性 - 值 格式 (Attribute-Value Formab: 一 种 表格 格式 ， 表 的 第 一 行 包 含 属性 的 名 
称 ， 第 一 行 下 面 的 每 一 行 都 包含 一 个 数据 实例 ， 表 的 列 中 给 出 它们 的 属性 值 。 
输入 属性 (Input Attribute): 有 指导 的 学 习 中 的 属性 。 

输出 属性 (Output Attribute): 有 指导 学 习 中 的 输出 结果 。 

决策 树 (Decision Tree): 是 一 种 简单 的 、 易 于 解释 和 理解 的 概念 结构 。 决 策 树 是 一 
棵 倒立 的 树 ， 树 的 非 叶子 节点 表示 在 一 个 属性 上 的 分 类 检查 ， 叶 子 节点 表示 决策 
判断 的 结果 ， 该 结果 选择 了 正确 分 类 较 多 实例 的 分 类 。 

无 指导 (监督 ) 聚 类 (Unsupervised Clustering): 是 一 种 无 指导 (无 教师 ) 的 学 习 ， 在 学 
习 训 练 之 前 ， 没 有 预先 定义 好 分 类 的 实例 ， 数 据 实例 按照 某 种 相似 性 度量 方法 ， 
计算 实例 之 间 的 相似 程度 , 将 最 为 相似 的 实例 聚 类 在 一 个 组 一 一 簇 (Clusten) 中 ,再 
解释 和 理解 每 个 簇 的 含义 ， 从 中 发 现 聚 类 的 意义 。 
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数据 查询 (Data Query): 通过 数据 查询 语言 在 数据 中 找 出 所 需要 的 数据 或 信息 

隐 含 知识 (Hidden Knowledge): 不 能 通过 查询 和 搜索 ， 需要 通过 数据 挖掘 来 获取 的 

数据 中 潜在 的 、 隐 藏 的 信息 或 知识 。 

专家 系统 (Expert System): 是 一 种 具有 “智能 ”的 计算 机 软件 系统 ， 它 能 够 模拟 某 

个 领域 的 人 类 专家 的 决策 过 程 ， 解 决 那些 需要 人 类 专家 处 理 的 复杂 问题 。 

@ ”专家 (Expert): 有 能 力 解 决 领域 中 复杂 问题 的 人 。 

@ ”知识 工程 师 (Knowledge Engineer): 与 专家 交流 ， 获 取 专 家 知识 的 人 。 

@ ”操作 型 数据 库 (Operational Database): 面向 日 常事 务 处 理 的 数据 库 ， 通 常 结构 为 关 

系 模型 。 

数据 仓库 (Data Warehouse): 从 多 种 、 异 构 、 分 散 的 传统 操作 型 数据 库 或 其 他 数据 

源 中 抽取 面向 主题 的 数据 ， 打 上 时 间 惟 ， 进 行 集成 存储 。 

@ ” 因 变 量 (Dependent Variables): 有 指导 的 学 习 模型 中 的 输出 属性 。 

@ 自 变量 (ndependent Variables): 有 指导 的 学 习 模 型 中 的 输入 属性 。 

@ 分 类 (Classification): 通过 有 指导 的 学 习 训 练 建立 分 类 模型 ， 使 用 模型 对 未 知 分 类 

的 实例 进行 分 类 。 

估计 (Estimation): 用 来 确定 一 个 未 知 的 输出 属性 值 。 与 分 类 模型 不 同 的 是 ， 估 计 

模型 的 输出 属性 是 数值 类 型 的 而 非 分 类 类 型 的 。 

孤立 点 (Outliers): 非典 型 实例 。 

产生 式 规则 (Production Rule): 格式 为 “IF 前 提 条 件 THEN 结论 ”的 规则 , 其 中 “前 

提 条 件 ” 描 述 输入 属性 的 值 ，“ 结 论 ” 说 明 输 出 属性 的 结果 。 

关联 分 析 (Association Analysis): 发 现 事物 之 间 关 联 关系 的 分 析 过 程 。 

购物 篮 分 析 (Market Basket Analysis): 确定 顾客 在 一 次 购物 中 可 能 一 起 购买 的 商 

品 ， 发 现 其 购物 篮 中 不 同 商品 之 间 的 联系 ， 分 析 顾 客 的 购买 习惯 ， 从 而 发 现 购买 

行为 之 间 的 关联 。 这 种 关联 的 发 现 可 以 帮助 零售 商 制定 营销 策略 。 

关联 规则 (Association Rules): 用 来 表达 关联 关系 的 一 组 特殊 的 产生 式 规则 形式 ， 
规则 的 结果 可 以 包含 多 个 属性 ， 某 条 规则 的 输出 属性 可 以 作为 其 他 规则 的 输入 属性 。 

数据 挖掘 技术 (Data Mining Technique): 是 对 一 组 数据 应 用 一 种 数据 挖掘 方法 ， 通 

常 由 一 个 数据 挖掘 算法 和 一 个 相关 的 知识 结构 ， 如 树 结 构 或 规则 来 定义 的 。 

@ ”前 馈 (Feed-Forward) 神 经 网 : 常用 的 有 指导 的 学 习 模型 。 一 个 实例 的 输入 属性 值 输 

入 到 输入 层 ， 通 过 隐 层 到 达 输 出 层 。 输 入 层 节点 数 由 输入 属性 的 个 数 决 定 ， 每 个 

输入 属性 都 有 一 个 输入 层 节 点 。 输 出 层 可 能 有 一 个 或 多 个 节点 来 表达 模型 的 输出 

结果 。 在 网 络 训 练 期 间 ， 将 每 个 实例 的 输出 和 希望 的 网 络 输出 进行 比较 ， 希 望 值 

计算 输出 值 之 间 的 误差 通过 修改 连接 权 值 传 回 网 络 。 当 达到 一 定 的 迭代 次 数 后 

当 网 络 收敛 到 一 个 预定 的 最 低 错误 率 时 , 训练 终止 。 在 模型 建立 的 第 二 阶段 中 ， 

定 网 络 权 重 ， 将 模型 用 于 计算 新 实例 的 输出 值 。 

以 下 词汇 来 自 Weka 软件 。 

@ Accuracy(ACC): 正确 率 、 准 确 度 (只 适用 于 离散 型 数据 )。 

@ Chebyshev Distance: 切 比 雪夫 距离 。 

e@ Chi-Qquare Test: 卡 方 检验 。 
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Classifier Model: 分 类 器 模型 。 

Cluster Centroids: 各 簇 中心 ( 重 心 )。 对 于 数值 型 属性 ， 重 心 即 均 值 (Mean); 对 于 
分 类 类 型 属性 ， 重 心 就 是 众 数 (Mode， 属 性 取 值 最 多 的 为 众 数 )。 

Clustered Instances: 簇 中 实例 数目 及 百分比 。 

Correctly Classified Instances: 正确 分 类 实例 (显示 总 数 和 百分比 )。 

Correlation Coefficient ( CC) : 相关 系数 (只 适用 于 连续 值 )。 

Cross-validation: 交叉 验证 将 一 个 数据 集 切 分 成 n( 折 数 ) 个 大 小 固定 的 单元 ， 其 中 
n-1 个 单元 被 用 于 训练 ， 第 n 个 单元 用 作 检 验 集 。 重 复 这 个 过 程 直至 每 个 大 小 固 
定 的 单元 都 被 当 作 检 验 数据 使 用 过 。 模 型 检验 集 正 确 率 用 个 训练 -检验 实验 的 平 
均 准 确 度 计 算 。 

Euclidean Distance: 欧 氏 距离 。 

Evaluate on Training Data: 在 训练 数据 上 评估 。 

Evaluation on Test Set: 在 检验 数据 上 评估 。 

False Negatives(FN): 假 负 。 

False Positives(FP): 假 正 。 
FP Rate: False Positive(FP) Rate，FPR 简称 “ 假 正 率 ”。 模 型 预测 为 正 的 负 实 例 
比率 = FP/(FP+TN)。 

Incorrectly Classified Instances: 错误 分 类 实例 (显示 总 数 和 百分比 )。 

Information Gain: 信息 增益 。 

Iteration: 和 迭代。 

J48 Pruned Tree: J48 未 前 枝 树 。 

Jitter: 拌 动 。 

Kappa Statistic: Kappa 统计 ， 用 于 评估 分 类 器 的 分 类 结果 与 随机 分 类 的 差异 度 。 
Linear Regression Model: 线性 回归 模型 。 

Lloyd's Algorithm: Lloyd 算法 。 一 种 局 部 最 优 算法 (Local Optimum Algorithm)， 
K-means 聚 类 方法 借鉴 采用 的 算法 。 

Manhattan Distance: 曼哈顿 距离 ， 与 欧 氏 距离 (直线 距离 ) 不 同 ， 是 两 点 在 标准 坐 
标 系 上 的 绝对 轴 距 总 和 。 

Mean Absolute Error (MAE): 平均 绝对 误差 。 分 类 器 预测 输出 和 实际 值 之 间 差 的 
绝对 平均 值 ， 用 于 度量 预测 值 与 实际 值 之 间 的 差异 度 。 

Naive Bayes: 朴素 贝 叶 斯 。 

Number ofLeaves: 叶子 数 。 

Overfitting: 过 度 拟 合 。 

Precision: 精确 度 。 被 模型 正确 预测 的 实例 与 所 有 被 预测 为 正 的 实例 的 比率 = 
TP/(TP+FP)。 

Predictions on Test Split: 检验 数据 上 的 分 割 预测 。 

Probability Distribution: 概率 分 布 。 

Pruning: 剪 枝 , 是 为 控制 决策 树 规模 、 优 化 决策 树 而 采取 的 剪除 部 分 分 支 的 方法 。 
前 枝 分 为 两 种 ， 即 预 前 枝 (Pre-Pruning) 和 后 前 枝 (Post-Pruning)。 
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Recall: 召回 率 ， 所 有 该 类 样本 被 正确 预测 的 比例 = TP Rate。 

Relative Absolute Error(RAE): 分 类 器 预测 输出 和 实际 值 之 间 的 误差 绝对 值 和 ， 与 
实际 值 与 实际 均值 之 差 的 绝对 值 和 之 比 。 

ROC Area: ROC 曲线 下 的 面积 ， 即 Area Under ROC Curve(AUC)。 

ROC Curves: ROC 曲线 ， 分 类 器 性 能 分 析 工 具 之 一 。 

Root Mean Squared Error (RMSE): 均 方 根 误差 。 均 方 误差 的 绝对 值 。 均 方 误差 是 
分 类 器 预测 输出 和 实际 值 之 间 差 的 平方 和 的 平均 值 。 

Root Relative Squared Error (RRSE): 相对 平方 根 误差 。 

Seed: 种 子 值 。 

Size of the Tree: 树 尺寸 (叶子 节点 和 非 叶 节 点 数 之 和 )。 

Summary: 总 结 。 

Test Mode: 检验 模式 。 

Time Taken to Build Model: 模型 建立 时 间 。 

Total Number of Instances: 实例 总 数 。 

TP Rate: True Positive(TP)Rate，TPR 简称 “真正 率 ”。 模 型 预测 为 正 的 正 实例 比 
率 = TP/(TP+FN)。 

True Negative(TN): 真 负 。 

True Positive(TP): 真正 。 

Within Cluster Sum of Squared Errors: 簇 内 误差 平方 和 ， 值 越 小 ， 说 明 簇 内 实例 间 
距离 越 小 ， 是 评价 聚 类 好 坏 的 标准 。 


章 ”基本 数据 挖掘 技术 


悲观 剪 枝 法 (Pessimistic Error Pruning，PEP): 目前 决策 树 后 前 枝 方法 中 精度 较 高 
的 技术 之 一 ， 它 使 用 训练 集 生成 决策 树 ， 同 时 又 将 其 作为 前 枝 集 ， 前 枝 和 检验 同 
时 进行 。 

置信 度 (Confidence): 给 定 一 个 规则 “IF A THEN B”， 置 信 度 定义 为 : 在 已 知 A 
为 真 的 条 件 下 ，B 也 为 真 的 条 件 概率 。 

支持 度 (Supporb: 在 关联 关系 中 出 现 的 所 有 条 目 (Items) 在 数据 集 实例 (交易 ) 中 所 占 
的 最 小 百分比 。 

条 目 (Items): 属性 及 其 取 值 ， 如 Sneaker = 1。 

条 目 集 (Item Sets): 符合 一 定 的 支持 度 要 求 的 属性 - 值 的 组 合 。 
信息 粹 (Information Entropy): 克 劳 德 。 香 农 提出 的 、 把 信息 变化 的 平均 信息 量 称 
为 “信息 炉 ”。 在 信息 论 中 ， 信 息 和 是 信息 的 不 确定 程度 的 度量 ， 其 越 大 ， 信 息 
就 越 不 容易 搞 清楚 ， 需 要 的 信息 量 就 越 大 。 

信息 增益 (Information Gain): 随机 事件 x 取 某 个 可 能 取 值 时 , 其 对 降低 x 的 粹 的 贡 
献 大 小 。 信 息 增益 值 越 大 ，x 的 这 个 取 值 所 带 来 的 信息 越 大 。 
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第 3 章 知识 发 现 


数据 库 中 的 知识 发 现 (Knowledge Discovery in Data，KDD): 从 数据 集中 提取 可 信 
的 、 新 颖 的 、 具 有 洪 在 使 用 价值 的 能 够 被 人 类 所 理解 的 模式 的 非 烦琐 的 处 理 过 程 。 
关系 型 数据 库 (Relational Database): 一 种 数据 库 ， 其 数据 表示 包含 行 和 列 的 表 的 
集合 。 表 的 每 一 列 是 属性 ， 每 一 行 存放 一 条 数据 记录 的 信息 。 

元 组 (Tuple): 关系 数据 库 表 中 单独 的 一 行 。 

基于 实例 的 分 类 器 (Instance-Based Classifier): 不 使 用 分 类 模型 的 分 类 器 ， 又 称 为 
“懒惰 分 类 器 ”， 典 型 的 如 人 -nearest 数据 挖掘 算法 建立 的 分 类 器 。 分 类 器 将 每 个 
类 的 代表 性 实例 组 成 一 个 子 集 ， 检 验 实例 通过 与 这 些 实例 的 属性 值 进行 比较 来 分 
类 ， 检 验 实例 被 放 到 代表 性 实例 与 其 最 为 相似 (“距离 ”最 短 ) 的 类 中 。 
数据 预 处 理 (Data Preprocessing): KDD 过 程 中 处 理 噪声 和 缺失 数据 的 一 个 步骤 。 
数据 清洗 (Data Cleaning): 知识 发 现 过 程 中 的 数据 预 处 理工 作 , 包括 噪声 数据 和 缺 
失 数据 检查 、 噪 声 数据 处 理 、 缺 失 数据 处 理 办 法 的 确定 和 说 明 时 间 序 列 信息 的 
方式 

噪声 (Noise): 属性 值 中 的 随机 错误 。 

数据 平滑 (Data Smoothing): 一 种 减少 数据 中 的 噪声 的 处 理 技术 。 

数据 变换 (Data Transformation): 包括 确定 平滑 数据 和 数据 标准 化 的 方法 ， 以 及 数 
据 类 型 的 变换 。 

数据 标准 化 (Normalization): 又 称 数据 归 一 化 、 正 规 化 ， 指 改变 数据 值 使 之 落 在 一 
个 指定 的 范围 内 。 

十 进 制 缩 放 (Decimal Scaling): 标准 化 方法 之 一 。 将 数据 值 除 以 10 的 整 次 方 。 
Min-Max 标准 化 (Min-Max Normalization): 标准 化 方法 之 一 。 适 用 于 属性 的 最 小 
值 和 最 大 值 都 已 知 的 情况 。 

Z-Score 标准 化 (Normalization Using Z-scores): 标准 化 方法 之 一 。 将 属性 值 转换 为 
标准 值 。 


@ ”对 数 标准 化 (Logarithmic Normalization): 标准 化 方法 之 一 。 用 一 些 值 的 以 2 为 底 

的 对 数值 代替 原 值 可 以 缩放 值 域 ， 而 又 不 丢失 信息 。 
第 4 章 数据 仓库 

@ ”数据 库 (Database): 是 计算 机 存储 设备 上 长 期 集中 存储 的 一 批 有 组 织 、 可 共享 的 数 
据 集 合 。 

e@ ”联机 事务 处 理 (On-line Transactional Processing，OLTP): 用 户 通过 终端 或 应 用 系统 
以 在 线 交 易 的 方式 自动 化 地 处 理 实时 性 数据 的 过 程 ， 如 银行 交易 、 订 单 业务 等 日 
常 的 事务 处 理 ， 是 传统 数据 库 的 主要 应 用 。 

e@ ”联机 分 析 处 理 (On-Line Analytical Processing，OLAP): 通过 一 套 多 维 数据 分 析 和 


BD ,。 
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统计 计算 方法 ， 产 生 集 成 性 决策 信息 的 过 程 。OLAP 是 关系 数据 库 之 父 EF. 科 德 
(E.F.Codd) 博 士 于 1993 年 提出 的 ， 是 数据 仓库 系统 的 主要 应 用 。 
概念 模型 (Conceptual Model) 或 实体 模型 (Entity Model): 现实 世界 中 的 事物 和 事物 
之 间 的 联系 经 过 人 脑 的 加 工 概 化 成 为 信息 世界 (或 称 概念 世界 ) 的 实体 和 实体 之 间 
的 联系 ， 描 述 实体 以 及 实体 之 间 的 联系 的 模型 称 为 概念 模型 。 

数据 模型 (Data Model): 信息 世界 的 实体 和 实体 之 间 的 联系 , 经 过 加 工 编码 形成 机 
器 世界 的 数据 和 数据 之 间 的 联系 ， 描 述 数据 以 及 数据 之 间 联 系 的 模型 称 为 数据 
模型 。 

实体 (Entity): 是 对 任何 一 个 可 以 识别 的 事物 的 概 化 而 形成 的 概念 ， 具 有 某 一 或 某 
些 方面 的 特征 ， 这 一 或 这 些 特 征 被 抽象 为 一 个 或 多 个 属性 ， 每 个 属性 有 属性 类 型 
和 属性 值 之 分 ， 而 其 中 的 一 个 或 多 个 属性 的 组 合 能 够 起 到 唯一 标识 实体 的 作用 ， 
这 样 的 属性 或 属性 组 合 称 为 实体 的 键 (Key)。 

实体 联系 图 (Entity Relationship Diagram): 一 种 数据 建 模 工 具 ， 用 实体 和 实体 间 的 
联系 来 描述 数据 结构 。 实 体 间 的 联系 可 以 是 一 对 一 、 一 对 多 和 多 对 多 的 。 
交叉 实体 (Intersection Entity): 因为 数据 库 系 统 不 能 直接 实现 多 对 多 的 实体 间 联 系 ， 
多 对 多 的 联系 需要 通过 两 个 一 对 多 的 联系 来 实现 ， 两 实体 间 的 联系 被 称 为 交叉 
实体 。 

关系 的 规范 化 (Normalization): 关系 数据 理论 是 关于 数据 库 设 计 的 理论 ， 它 认 为 可 
以 使 用 几 个 结构 简单 的 关系 模式 取代 原来 结构 复杂 的 关系 模式 ， 从 而 消除 关系 模 
式 所 具有 的 插入 、 删 除 和 更 新 异常 ， 消 除 元 余 。 这 个 过 程 称 为 关系 的 规范 化 。 

第 一 范式 (First Normal Form，1NF): 属于 1NF 的 关系 模式 要 求 关系 的 每 个 分 量 都 
必须 是 原子 的 。 

第 二 范式 (Second Normal Form，2NF): 如 果 一 个 实体 属于 1NF 且 它 的 所 有 非 键 属 
性 都 完全 依赖 于 主键 ， 则 它 属于 2NF。 

第 三 范式 (Third Normal Form，3NF): 如 果 一 个 实体 属于 2NF 且 每 个 非 键 属性 仅 
完全 依赖 于 主键 ， 则 它 属于 3NF。 

数据 粒度 (Data Granularity): 用 于 描述 存储 信息 的 详细 程度 的 术语 。 

一 对 一 联系 (One-to-One Relationship)。 两 个 实体 A 和 B 之 间 的 一 种 联系 类 型 ， 其 
中 A 的 每 个 实例 只 与 B 的 一 个 实例 相关 联 。 

一 对 多 联系 (One-to-One Relation)。 两 个 实体 A 和 B 之 间 的 一 种 联系 类 型 , 其 中 A 
的 每 个 实例 与 B 的 一 个 或 多 个 实例 相关 联 。 

多 对 多 联系 (Many-to-Many Relationship)。 两 个 实体 A 和 B 之 间 的 一 种 联系 类 型 ， 
其 中 A 的 每 个 实例 都 与 B 的 一 个 或 多 个 实例 相关 联 ， 且 B 的 每 个 实例 与 A 的 一 
个 或 多 个 实例 相关 联 。 

反 向 规范 化 (De-normalization): 将 关系 数据 库 中 所 有 规范 化 的 关系 根据 依赖 关系 
还 原 为 未 做 规范 化 处 理 之 前 的 有 宛 余 的 关系 的 过 程 . 反 向 规范 化 将 破坏 范式 约束 。 
平面 文件 (Flat File): 是 指 没有 特定 格式 和 关系 结构 的 数据 记录 ， 如 纯 文本 文件 ， 
包括 .txt 文件、 使 用 逗号 作为 分 隔 符 的 .csv 文件 、.arf 文 件 等。 

独立 数据 集 市 (ndependent Data Marb: 是 一 种 类 似 于 数据 仓库 的 数据 集合 ， 数 据 
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集 市 中 的 数据 面向 单一 主题 。 

数据 的 抽取 、 转 换 和 加 载 (Extraction，Transformation，Loading，ETL): ETL 过 程 
的 主要 任务 是 : 从 一 个 或 多 个 输入 源 中 抽取 数据 ， 如 果 有 必要 ， 清 洗 和 转换 提取 
的 数据 ， 并 将 数据 加 载 到 数据 仓库 中 。 

元 数据 (Metadata)。 元 数据 是 定义 和 描述 其 他 数据 的 数据 ， 是 关于 数据 的 数据 ， 在 
整个 数据 抽取 、 转 换 、 加 载 过 程 中 起 到 基础 作用 。 

稳定 维度 (Unchanging Dimensions，UDs): 不 随时 间 发 生变 化 的 维度 属性 。 

渐变 维度 (Slow Changing Dimensions，SCDs): 随时 间 发 生 缓慢 变化 的 维度 属性 。 
快 变 维度 (Rapidly Changing Dimensions，RCDs): 随时 间 变 化 频率 较 快 的 维度 
属性 。 

星 型 模型 (Star Model): 用 关系 模型 存放 数据 仓库 中 的 数据 ， 并 调用 关系 数据 库 引 
擎 将 数据 以 多 维 格式 展现 给 用 户 。 一 个 星 型 模型 有 一 张 事实 表 ， 定 义 了 多 维 空间 
的 维 数 , 事实 表 的 每 条 记录 包含 维度 关键 字 和 事实 。 维度 关 键 字 是 系统 产生 的 值 ， 
用 于 区 分 事实 表 的 每 一 条 记录 。 事 实 表 的 每 一 维 都 可 能 有 一 个 或 多 个 相关 联 的 维 
度 表 。 维度 表 分 布 在 一 颗 星 的 顶点 上 ， 围 绕 着 中 心 的 事实 表 , 形成 了 星星 的 形状 ， 
这 也 是 星 型 模型 名 称 的 由 来 。 维 度 表 包含 每 个 维度 中 的 数据 。 每 张 维 度 表 和 事实 
表 之 间 的 联系 是 一 对 多 的 联系 。 

事实 表 (Fact Table): 一 个 关系 表 ， 在 星 型 模式 中 定义 了 多 维 空间 的 维度 。 

维度 表 (Dimension Tables): 一 个 关系 表 ， 包 含 了 星 型 模式 某 一 维 的 相关 信息 。 
雪花 模型 (Snowflake Model): ”特殊 形式 的 星 型 模式 ， 是 将 星 型 模型 中 的 某 些 维度 
表 进 行 分 层 形成 的 模型 。 

星座 模型 (Constellation Model)。 当 星 型 模型 中 有 两 个 或 两 个 以 上 的 事实 表 时 ， 形 
成 的 模型 称 为 星座 模型 。 

依赖 型 数据 集 市 (Dependent Data Mart): 从 企业 级 数据 仓库 中 获取 数据 ， 对 数据 仓 
库 中 的 数据 进行 汇总 并 计算 得 到 粒度 级 别 较 高 的 数据 集 市 。 
决策 支持 系统 (Decision Support System，DSS): 是 辅助 决策 者 通过 数据 、 模 型 和 
知识 ， 以 人 机 交互 方式 进行 半 结 构 化 或 非 结 构 化 决策 的 计算 机 应 用 系统 。 

智能 决策 支持 系统 (Intelligent Decision Support System，IDSS): 决策 支持 系统 与 专 
家 系统 相 结合 形 成 的 计算 机 应 用 系统 。 它 既 能 发 挥 专家 系统 以 知识 推理 形式 解决 
定性 分 析 问 题 的 特点 ， 又 能 发 挥 决策 支持 系统 以 模型 计算 为 核心 的 解决 定量 分 析 
问题 的 特点 ， 能 够 做 到 定性 分 析 和 定量 分 析 的 有 机 结合 ， 使 得 解决 问题 的 能 力 和 
范围 得 到 了 一 个 很 大 的 发 展 。 

综合 决策 支持 系统 (Synthetic Decision Support System, SDSS): 将 数据 仓库 OLAP、 
数据 挖掘 、 模 型 库 、 数 据 库 、 知 识 库 结合 起 来 形成 的 系统 ， 该 系统 发 挥 了 传统 决 
策 支持 系统 和 新 决策 支持 系统 的 辅助 决策 优势 ， 实 现 更 有 效 的 辅助 决策 。 

多 维 数据 立方 体 (Multidimensional Data Cube): 多 维 结构 的 数据 集 ， 表 示 为 一 个 多 
维 矩阵 ， 采 用 多 角度 查询 分 析 的 方法 来 获取 对 数据 的 更 深 了 解 。 
概念 分 层 (Concept Hierarchy): 概念 的 分 层 映 射 , 能 够 从 不 同 的 细节 程度 查看 属性 。 
切片 (Slice): 一 种 OLAP 操作 。 保 持 其 他 维 不 变 ， 在 OLAP 立方 体 的 一 个 维度 上 
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进行 选取 操作 。 

切 块 (Dice)。 一 种 OLAP 操作 。 在 两 个 或 更 多 的 维度 上 进行 选取 操作 ， 从 原始 立 
方 体 中 抽取 一 个 子 立 方 体 ， 甚 至 是 立方 块 。 

上 卷 (Roll-Up) 或 聚集 (Aggregation): 一 种 OLAP 操作 。 立 方 体 中 某 一 维度 的 单元 
格 的 汇总 , 通常 可 采用 与 某 一 维度 相关 联 的 概念 分 层 来 获得 更 高 程度 的 汇总 信息 。 
下 外 (Drill-Down): 一 种 OLAP 操作 。 上 卷 的 逆 操 作 ， 以 更 加 详细 具体 的 程度 查看 
数据 。 

旋转 (Rotation) 或 转轴 (Pivoting): 一 种 OLAP 操作 。 变 换 显 示 各 个 属性 的 坐标 轴 ， 
以 便 从 不 同 的 透视 角度 来 查看 数据 。 

数据 透视 表 (Pivot Table): 基于 MS Excel 的 数据 分 析 工 具 ， 可 以 用 于 汇总 数据 、 
用 不 同方 式 分 组 数据 ， 以 及 用 多 种 格式 显示 数据 。 


第 五 章 ”评估 技术 


检验 集 评估 (Test Set Evaluation): 对 于 有 指导 的 学 习 , 数据 集 数据 分 为 训练 数据 和 
检验 数据 ， 检 验 集 用 于 在 建 模 中 提供 度量 模型 性 能 的 数据 ， 在 检验 集 上 的 评估 称 
为 检验 集 评估 。 

混淆 和 矩阵 (Confusion Matrix): 评估 有 指导 学 习 模 型 的 基本 工具 ， 它 能 够 直观 地 给 
出 模型 检验 集 分 类 正确 或 错误 的 情况 。 主 对 角 线 上 的 数据 项 表示 正确 分 类 的 实例 
总 数 ， 非 主 对 角 线 上 的 数据 项 表示 分 类 错误 的 实例 数 。 

正 态 分 布 (Normal Distribution): 如 果 数 据 的 频率 图 是 钟 形 的 或 对 称 的， 数据 被 认 
为 是 正 态 的 分 布 。 

样本 数据 (Sample Data): 从 实例 总 体 中 抽取 的 实例 组 成 的 集合 。 

均值 (Mean): 就 是 平均 值 ， 用 表示， 是 所 有 数据 的 平均 数 。 

方差 (Variance): 度量 了 每 个 数据 与 均值 的 离 差 量 ， 用 ?表示 ， 是 所 有 数据 与 均 
值 之 差 的 平方 和 的 平均 值 。 

标准 ( 偏 ) 差 (Standard Deviation，SD): 用 o 表示， 是 方差 的 平方 根 。 

零 假设 (Null Hypothesis): 又 称 原 假设 ， 或 虚无 假设 ， 其 内 容 一 般 是 希望 证 明 其 错 
误 的 假设 。 

双 类 (Two-Class) 问 题 : 问题 的 输出 是 分 类 类 型 ， 且 输出 属性 为 二 元 取 值 : “是 ” 
与 “ 否 ”、“ 真 ”与 “ 假 ”、“ 接 受 ” 与 “拒绝 ”。 

平均 绝对 误差 (Mean Absolute Eror，MAE): 计算 输出 值 和 实际 输出 值 之 间 差 的 平 
均 绝 对 值 。 

均 方 误差 (Mean Squared Error，MSE): 计算 输出 值 和 实际 输出 值 之 间 差 的 平均 平 
方 值 。 

均 方 根 误差 (Root Mean Squared Error，RMS): 均 方 误差 的 平方 根 。 

分 类 器 错误 率 (Classifier Error Rate): 是 有 指导 的 模型 的 性 能 最 常用 的 度量 工具 ， 

它 能 够 代表 模型 未 来 可 能 具有 的 性 能 。 
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提升 (Lifb: 总 体 P 的 一 个 样本 中 的 类 Ci 出 现 的 概率 除 以 整个 总 体 P 中 的 类 Ci 出 
现 的 概率 。 

提升 图 (Lift Chart): 以 样本 尺度 函数 的 形式 显示 数据 挖掘 模型 性 能 的 图 形 。 
相关 系数 (Correlation Coefficient): 度量 了 两 个 数值 型 属性 之 间 的 线性 相关 程度 ， 
对 于 样本 用 + 或 p 表示 ， 对 于 总 体 则 用 希腊 字母 rho 表示 。 

正 相 关 (Positive Correlation): 两 个 属性 的 正 相关 是 指 两 个 属性 具有 同时 增加 或 减少 的 
特性 ，r 接近 于 1。 

负 相 关 (Negative Correlation): 两 个 属性 的 负 相 关 是 指 一 个 属性 增加 而 同时 另 一 个 
属性 减少 的 特性 ，r 接近 于 -1。 

曲线 相关 (Curvilinear Correlation): 又 称 非 线 性 相关 。 两 个 属性 的 曲线 相关 是 指 彼 
此 间 显 示 出 曲线 关系 (与 直线 相 比 )。 

散 点 图 (Scatterplot Diagram): 一 种 二 维 图 表 ， 标 注 了 两 个 数值 属性 的 关系 。 

分 层 法 (Stratification): 在 概念 分 层 上 选择 数据 ， 确 保 每 个 类 的 实例 有 合理 的 分 布 ， 
即 在 训练 数据 和 检验 数据 中 都 被 适当 地 表示 。 

第 一 类 错误 (Type 1 Error): 当 正 确 的 零 假 设 被 拒绝 时 ， 发 生 第 一 类 错误 。 

第 二 类 错误 (Type 2 Error): 当 错 误 的 零 假 设 被 接受 时 ， 发 生 第 二 类 错误 。 
验证 数据 (Validation Data): 它 是 训练 数据 和 检验 数据 的 补充 ， 使 用 它 可 以 对 模型 
进行 比较 ， 帮 助 我 们 从 多 个 用 同样 训练 集 建立 的 模型 中 选择 一 个 。 
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神经 网 络 (Neural Networks): 是 人 工 神 经 网 络 (Artificial Neural Networks，ANN) 的 
简称 。 神 经 网 络 是 一 种 具有 统计 特性 的 数学 模型 ， 它 的 创建 思想 源 于 人 类 神经 网 
络 的 结构 、 功 能 和 运行 过 程 。 

神经 元 (Neurodes): 在 神经 网 络 中 ， 知 识 被 表示 为 处 理 单元 的 集合 ， 这 些 处 理 单元 
节点 通常 称 为 神经 元 。 

感知 神经 网 络 (Perceptron Neural Network): 简单 的 前 馈 神 经 网 络 体系 结构 ， 由 一 
个 输入 层 和 一 个 输出 层 组 成 。 

反 向 传播 学 习 (Backpropagation Learning): 是 前 馈 神经 网 络 的 有 指导 学 习 方 法 。 在 
训练 阶段 ， 根 据 网 络 输出 值 修改 各 个 权 值 ， 权 值 的 修改 方向 是 从 输出 层 开始 ， 反 
向 移动 到 隐 层 ， 故 称 为 反 向 传播 学 习 。 

灵敏 度 分 析 (Sensitivity Analysis): 一 种 网 络 解释 技术 ， 可 以 确定 各 个 属性 相对 重 
要 性 的 等 级 排列 。 

A 规则 (Delta Rule): 一 种 神经 网 络 学 习 规 则 , 用 来 最 小 化 网 络 的 计算 输出 与 网 络 的 
目标 输出 之 间 的 误差 平方 和 。 

周期 (Epochs): 训练 数据 经 过 神经 网 络 的 一 个 完整 的 过 程 的 次 数 。 
线性 可 分 (Linearly Separable): 两 个 类 A 和 了 B， 如 果 能 够 画 出 一 条 直线 分 隔 开 类 A 
中 的 实例 和 类 B 中 的 实例 ， 就 称 为 线性 可 分 的 。 


In 人 总 
[0111 
@ ”全 连接 (Fully Connected): 一 种 神经 网 络 结构 ， 网 络 中 一 层 的 所 有 节点 都 与 下 一 层 
的 所 有 节点 相连 。 
@ 激励 函数 (Activation Function): 在 神经 网 络 中 ， 隐 层 和 输出 层 节点 的 输入 和 输出 
之 间 具 有 函数 关系 ， 这 个 函数 称 为 激励 函数 。 
@  S 形 函 数 (Sigmoid Function): 常用 的 神经 网 络 激励 函数 之 一 ，S 形 函 数 是 连续 的 、 
可 导 的 、 有 界 且 关 于 原点 对 称 的 增 函 数 ， 可 用 反正 切 函 数 arctan 或 指数 函数 exp 
来 实现 。 
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@ 回归 分 析 (Regression Analysis): 一 种 统计 分 析 方 法 ， 它 可 以 用 来 确定 两 个 或 两 个 
以 上 变量 之 间 的 定量 的 依赖 关系 ， 并 建立 一 个 数学 方程 作为 数学 模型 ， 来 概 化 一 
组 数值 数据 ， 进 而 进行 数值 数据 的 估 值 和 预测 。 

e@ 简单 线性 回归 (Simple Linear Regression): 线性 回归 方程 最 简单 的 形式 ， 它 只 有 一 
个 自 变量 作为 因 变 量 的 预测 。 是 一 种 具有 单个 独立 变量 的 回归 方程 。 

@ ”和 斜 截 式 (Slope-Intercept Form): 格式 为 y=ax+b 的 线性 方程 ， 其 中 a 为 直线 的 斜率 ， 
5 为 y 轴 上 的 截 距 。 

@ ”多 元 线性 回归 (Multivariable Linear Regression): 有 两 个 或 两 个 以 上 的 自 变量 的 线 
性 回归 。 

@ 判定 系数 (Coefficient of Determination): 对 于 一 个 回归 分 析 ， 因 变量 的 实际 值 与 评 
估 值 之 间 的 相关 性 。 若 判定 系数 接近 于 1， 则 表示 因 变 量 的 估计 值 与 实际 值 之 间 
的 相关 程度 很 高 ， 反 之 则 很 低 。 

@ ”对 数 回归 (Logistic Regression): 是 一 种 非 线性 回归 技术 。 对 数 回归 不 是 直接 预测 

因 变量 的 值 ， 而 是 估计 因 变 量 取 给 定 值 的 概率 。 它 是 对 因 变 量 发 生 某 事件 的 条 件 
概率 进行 建 模 ， 从 而 预测 因 变 量 的 线性 函数 。 因 其 回归 方程 表达 形式 为 线性 的 ， 
所 以 又 被 称 为 广义 线性 回归 模型 中 的 一 种 。 

@ ”回归 树 (Regression Tree): 一 种 特殊 的 决策 树 , 其 叶 节点 是 数值 而 不 是 分 类 类 型 值 。 

叶 节点 的 值 是 经 过 树 到 达 叶 节点 的 所 有 实例 的 输出 属性 的 平均 值 。 

@ 树 回 归 (Tree Regression): 它 是 使 用 回归 树 结 构 ， 通 过 构建 决策 节点 把 数据 切 分 成 
区 域 ， 在 局 部 区 域内 进行 回归 拟 合 的 回归 分 析 方法 。 

@ ”分 类 回归 树 (Classification And Regression Tree, CART): 是 一 种 根据 数据 特征 进行 
二 元 划分 建树 的 回归 树 ， 它 使 用 计算 分 割 数据 的 方差 作为 度量 ， 使 用 使 得 方差 最 
小 的 连续 特征 值 作为 树 的 节点 。 它 能 够 针对 复杂 的 、 非 线性 问题 建 模 。 

@ ”模型 树 (Model Trees): 一 种 特殊 的 决策 树 ， 其 每 个 叶子 节点 包含 一 个 线性 回归 
方程 。 

@ 贝 叶 斯 分 析 (Bayesian Analysis): 一 种 参数 估计 方法 。 它 将 关于 未 知 参数 的 先 验 信 
息 与 样本 信息 相 结合 ， 根 据 贝 叶 斯 公式 ， 得 出 后 验 信息 ， 然 后 根据 后 验 信息 去 推 
断 未 知 参数 。 
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贝 叶 斯 分 类 器 (Bayes Classifier): 使 用 贝 叶 斯 分 析 方法 建立 的 、 一 种 简单 ， 但 功能 
强大 的 有 指导 分 类 技术 。 模型 假定 所 有 输入 属性 的 重要 性 相等 , 且 彼 此 是 独立 的 。 
贝 叶 斯 定理 (Bayes Theorem): 给 定 某 个 数据 样本 的 条 件 下 ， 假 设 的 概率 。 它 等 于 
给 定 该 假设 的 条 件 下 数据 样本 的 概率 乘 以 假设 的 概率 ， 再 除 以 数据 样本 的 概率 。 
先 验 概率 (Priori Probability): 表示 在 任何 数据 样本 五 出 现 之 前 假设 的 概率 。 

条 件 概率 (Conditional Probability): 给 定 假设 五 为 真 的 条 件 下 , 数据 样本 EE 为 真 的 
概率 ， 记 作 P(EID)。 

划分 聚 类 法 (Partition Clustering): 对 一 个 具有 个 实例 的 数据 集 ， 初始 构造 上 个 簇 
(k<n)， 然 后 通过 反复 迭代 调整 个 艇 的 成 员 ， 最 终 直到 每 个 艇 的 成 员 稳 定 为 止 。 
凝聚 聚 类 (Agglomerative Clustering): 一 种 很 受 欢 迎 的 无 指导 聚 类 技术 。 与 
K-means 算法 需要 在 聚 类 前 确定 所 形成 秘 的 个 数 不 同 ， 凝 聚 聚 类 在 开始 时 假定 每 
个 数据 实例 代表 它 自己 的 类 。 聚 类 算法 连续 和 欠 代 以 成 对 地 合并 高 相似 度 的 徐 ， 直 
到 所 有 实例 都 成 为 一 个 聚 类 的 成 员 ， 最 后 一 步 决定 哪个 聚 类 是 最 佳 的 最 后 结果 。 
增 量 学 习 (Incremental Learming): 是 一 种 在 实例 连续 出 现 的 情况 下 ， 根 据 新 出 现 的 
实例 ， 调 整 模型 以 对 新 实例 作出 反应 的 无 指导 学 习 模 式 。 

概念 聚 类 (Conceptual Clustering): 一 种 无 指导 聚 类 技术 ， 它 结合 增 量 学 习作 为 一 
组 输入 实例 构造 概念 分 层 。 

概念 分 层 (Concept Hierarchy): 一 种 树 结构 形式 ， 其 根 节点 包含 所 有 域 实例 的 汇总 
信息 ， 是 概念 的 最 高 层次 。 

基层 节点 (Basic-Level Nodes): 在 分 类 树 中 ， 除 了 叶 节点 ， 其 他 节点 都 称 为 树 的 基 
层 节点 。 基 层 节 点 实际 上 表达 了 人 类 对 概念 层次 的 划分 。 

分 类 效用 (Category Utility，CU): 一 种 启发 式 评价 函数 ， 它 定义 了 聚 类 的 好 坏 ， 值 
越 小 ， 聚 类 越 差 ， 值 越 大 ， 聚 类 质量 越 好 。CU 度量 了 一 个 实例 被 分 类 到 某 个 入 
后 ， 其 属性 值 被 正确 预测 的 期 望 增益 。 

基于 模型 的 聚 类 方法 (Model-based Clustering): 是 为 每 个 分 类 ( 簇 ) 假 设 一 个 模型 ， 
再 去 发 现 符合 模型 的 数据 实例 ， 使 得 实例 数据 与 某 个 模型 达成 最 佳 拟 合 。 

混合 (Mixture): 在 基于 模型 的 聚 类 方法 中 ， 一 个 混合 是 一 组 元 概率 分 布 ， 其 每 
个 分 布 代表 一 个 簇 。 

EM(Expectation-Maximization) 算 法 : 一 种 采用 有 限 高 斯 混合 模型 的 统计 技术 ， 统 
计 学 中 用 在 依赖 于 无 法 观测 的 隐 性 变量 (Latent Variable) 的 概率 模型 中 ， 对 参数 进 
行 最 大 似 然 估计 。 
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时 间 序 列 (Time Series): 用 时 间 排 序 的 一 组 随机 变量 。 

一 元 时 间 序 列 (Univariate Time Series， 单 变量 时 间 序 列 )， 与 时 间 相 关 的 序列 值 只 
有 一 个 的 时 间 序 列 。 

多 元 时 间 序 列 (Multivariate Time Series， 多 变量 时 间 序 列 ): 与 时 间 相关 的 序列 值 


| 虹 录 A 词汇 表 
[IILLLLLLIE 
有 多 个 的 时 间 序 列 。 
离散 时 间 序 列 (Discrete Time Series): 时 间 序 列 中 每 个 序列 值 所 对 应 的 时 间 参 数 为 
离散 的 间隔 点 。 
连续 时 间 序 列 (Continuous Time Series): 时 间 序 列 中 的 每 个 序列 值 所 对 应 的 时 间 参 
平稳 型 时 间 序 列 (Steadied Time Series): 时 间 序 列 中 的 属性 值 随 着 时 间 的 变化 无 明 
显 的 趋势 。 
季节 型 时 间 序 列 (Seasonal Time Series): 时 间 序 列 中 的 属性 值 随 着 时 间 周 期 进行 周 
期 性 变化 的 时 间 序 列 。 
循环 型 时 间 序 列 (Cycling Time Series): 时 间 序 列 中 的 属性 值 随时 间 的 变化 也 是 呈 
周期 性 的 ， 但 是 周期 不 是 一 个 固定 的 时 间 间 隔 。 
直线 型 时 间 序 列 (Linear Time Series): 时 间 序 列 中 的 属性 值 随 时 间 的 变化 呈 线 性 。 
曲线 型 时 间 序 列 (Curve Time Series): 时 间 序 列 中 的 属性 值 随时 间 的 变化 呈 曲 线 。 
时 间 序 列 挖掘 (Time Series Data Mining, TSDM): 对 时 间 序 列 进行 数据 挖掘 的 过 程 ， 
即 从 大 量 的 时 间 序 列 数据 中 提取 未 知 的 、 具 有 潜在 价值 的 与 时 间 属 性 相关 的 知识 
或 规律 ， 用 于 短期 、 中 期 或 长 期 预测 。 
TFIDF(Term Frequency Inverse Document Frequency): 一 种 用 于 文本 挖掘 的 常用 加 
权 技术 。 它 是 一 种 统计 方法 ， 用 来 评估 一 个 单词 对 于 一 个 文本 集中 的 一 篇 文章 的 
重要 程度 ， 单 词 的 重要 性 随 着 它 在 文章 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 
它 在 文本 集中 出 现 的 频率 成 反比 下 降 。 
用 户 会 话 (User Session): 用 户 向 Web 服务 器 请 求 页 面 浏览 (Pageview) 的 完整 过 程 。 
会 话 文件 (Session File): 包含 会 话 实例 的 文件 。 
页 面 浏 览 (Pageview): 一 个 或 多 个 页 面 文件 , 在 Web 浏览 器 上 形成 一 个 显示 窗口 。 
序列 挖掘 器 (Sequence Miner): 一 种 特殊 的 数据 挖掘 算法 ， 它 能 够 发 现 以 相同 顺序 
出 现 的 被 频繁 访问 的 页 面 。 
个 性 化 服务 (Personalization Service): 一 种 自动 推 给 用 户 的 服务 ， 无 须 用 户主 动 地 
选择 或 寻找 他 们 感 兴趣 的 内 容 ， 而 是 主动 地 提供 给 他 们 。 
自 适 应 Web 站 点 (Adaptive Web Sites): 能 够 通过 数据 挖掘 学 习 模型 半自动 地 改进 
内 部 结构 以 及 表示 方法 的 Web 站 点 。 
索引 页 (Index Page): 一 个 Web 页 ， 能 够 链接 到 详细 描述 某 个 主题 的 一 组 页 面 。 
装 袋 (Bagging): 一 种 有 指导 的 学 习 方法 。 其 基本 思想 是 使 用 多 个 模型 分 类 新 实例 ， 
其 中 每 个 模型 都 是 使 用 相同 的 数据 挖掘 算法 来 建立 ， 模 型 的 区 别 在 于 选取 同一 个 
数据 集中 不 同 的 训练 实例 进行 训练 。 这 多 个 模型 在 新 实例 的 分 类 中 拥有 相同 的 
权重 。 
推进 (Boosting): 一 种 有 指导 的 学 习 方 法 。 其 基本 思想 是 使 用 多 个 模型 分 类 新 实例 ， 
每 个 新 模型 的 建立 是 基于 前 面 模型 的 结果 。 基 于 模型 在 训练 数据 上 的 性 能 ， 每 个 
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模型 被 赋予 不 同 的 权重 ， 在 未 知 实例 的 分 类 中 执行 效果 较 好 的 模型 被 赋予 了 更 多 
的 权重 。 

@ 点击 流 (Clickstream): 用 户 在 访问 Web 页 和 相关 链接 时 所 产生 的 一 系列 链接 。 
Cookie: 存储 于 用 户 计算 机 中 包含 会 话 信息 的 数据 文件 。 

e@ 扩展 的 一 般 日 志文 件 格式 (Extended Common Log File Format): 一 种 用 于 存储 Web 
服务 器 日 志文 件 信息 的 格式 。 
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附录 B 数据 挖掘 数据 集 

1) 文件 名 : CreditScreening 

领域 :信用卡 申请 

数据 来 源 : UCI 

描述 : 数据 集 包 含 690 个 实例 ， 文 件 包含 了 信用 卡 申 请 的 有 关 数 据 ， 所 有 属性 名 和 值 
已 经 被 改 为 无 意义 的 符号 ， 以 保护 数据 的 机 密 性 。 数 据 集 提供 了 分 类 和 连续 属性 的 混合 ， 
数据 还 具有 一 些 缺 失 值 ， 这 些 值 在 Excel 电子 表格 中 以 空白 单元 格 的 形式 出 现 。 每 个 实例 
包含 15 个 输入 属性 和 1 个 输出 属性 。 输入 属性 有 一 个 任意 的 名 字 , 输出 属性 指定 的 属性 名 
为 Class。 如 果 Class 的 值 为 “+”, 这 个 人 的 信用 卡 申请 得 到 了 批准 ; 如 果 Class 的 值 为 “-”， 
表示 拒绝 了 申请 。 表 B.1 为 所 有 属性 值 说 明 。 


表 B.1 CreditScreening 数据 集 属性 说 明 


属性 名 说 明 


ten 


eleven 


twelve 
thirteen 


fourteen 意义 不 
fifteen 1 意义 符号 
class 使 用 +、- 表 示 批 准 申请 和 拒绝 申请 
2) 文件 名 : CardiologyCategorical 
CardiologyNumerical 
领域 : 医药 
数据 来 源 : UCI 
描述 : 数据 集 有 303 个 实例 ， 其 中 165 个 实例 为 未 患 心脏 病 的 病人 数据 ，138 个 实例 
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为 患 过 心脏 病 的 病人 数据 。 

数据 集 共 有 14 个 属性 ， 第 14 个 属性 表示 该 实例 是 否 为 患 有 心脏 病 的 病人 。 
CardiologyNumerical 文件 中 的 全 部 属性 被 变换 为 数值 型 属性 ，CardiologyCategorical 文件 中 
的 属性 为 混合 格式 ， 既 有 数值 型 属性 ， 也 有 分 类 类 型 属性 。 表 B.2 为 所 有 属性 值 的 说 明 。 


表 B.2 心脏 病人 数据 集 属性 说 明 


属性 名 混合 值 说 明 
Age Numeric 年 龄 
Sex Male，Female 性 别 
Angina，Abnormal _ WR 
hool aint i 胸痛 类 型 ( 绞 痛 、 异 常 绞 痛 、 无 绞 痛 、 
t ina, NoTang, 
est Pain Type gi . g 无 症状 ) 
Asymptomatic 
Blood Pressure Numeric Numeric 静 息 血压 
Cholesterol Numeric Numeric 血清 胆固醇 
Fasting Blood Sugar<120 True，False [Ino | 空腹 血糖 低 于 120 吗 ? 
Normal, Abnormal, 静 息 心电图 (正常 、 异 常 、 左 心室 
Resting ECG 0, 1, 2 
Hyp 肥大 ) 
Maximum Heart Rate Numeric Numeric 最 大 心率 
Induced Angina? True，False [Ino | 诱发 心绞痛 吗 ? (运动 的 结果 ? ) 
Old Peak Numeric Numeric 峰值 
Slope Up, Flat, Down 斜 度 
Number Colored Vessels 0, 1, 2, 3 0，1，2，3 | 有 色 导 管 编号 
地 中 海 缺 血 (正常 、 固 定 缺 损 、 可 逆 
Thal Normal, Fix, Rev 3, 6,7 
缺损 ) 
Concept Class Healthy, Sick luo | 概念 类 (血管 造影 疾病 状态 ) 
3) 文件 名 : CreditCardPromotion 
CreditCardPromotionNet 


领域 : 信用 卡 促销 
数据 来 源 : 假想 数据 集 
描述 : 数据 集 有 15 个 实例 ， 包 含 曾经 接受 或 拒绝 过 各 种 促销 产品 的 信用 卡 持 卡 人 的 
息 。 
数据 集 共 有 7 个 属性 ， 分 别提 供 每 个 客户 的 年 龄 、 收 入 、 性 别 、 是 否 拥有 信用 卡 保险 、 
是 否 利用 过 各 种 信用 卡 促销 。 表 B.3 为 所 有 属性 值 的 说 明 
CreditCardPromotion 文件 中 的 属性 为 混合 格式 ， 既 有 数值 型 属性 ， 也 有 分 类 类 型 属性 。 
CreditCardPromotionNet 文件 中 的 数据 为 原始 数据 集 的 数值 转换 格式 。 
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表 B.3 信用 卡 促销 数据 集 属性 说 明 


属性 名 混合 值 说 明 

Income Range Numernic 一 入 范围 
Magazine Promo Yes, No 是 否 购 买 促销 产品 
Watch Promo Yes, No 是 否 购 买 促销 产品 
Life Ins.Promo, Yes, No 是 否 购买 人 寿 保险 
Credit Card Ins. Yes, No 是 否 购 买 信用 卡 保险 
Age Numeric 年 龄 
Sex Male, Female 性 别 

4) 文件 名 : bank-data 

领域 ， 商 业 


数据 来 源 : 互联 网 


描述 : 银行 客户 行为 数据 集 。 数 据 集 包 含 了 600 


个 实例 ，12 个 属性 。 属 性 包括 ID( 用 


户 ID)， 属 性 Age( 年 龄 );，Sex( 性 别 ); Region( 居 住地 )， 取 值 Inner_city( 市 内 )、Town( 城 镇 )、 
Suburban( 城 郊 )、Rural( 乡 村 ); 属性 Income( 收 入 ); Married( 婚 否 ); Children( 子 女 数 )， 取 值 


0、1、 
Mortgage( 是 否 


Sex 


Region 


有 抵押 ); Pep( 


Numeric 


Male，Female 


县 不 
是 否 


表 B.4 银行 数据 集 属性 说 明 
值 


ID12101 到 ID12700 


Inner city, Town, Suburban, Rural 


说 了 明 


用 户 名 


年 
性 


内 
别 


2、3; Car( 是 否 有 汽车 )，Save_act( 是 否 有 储蓄 账户 )，Current_act( 是 否 为 活期 账户 ); 
为 Pep)。 表 B.4 为 所 有 属性 值 的 说 明 。 


居住 地 (市 内 、 城 镇 、 城 郊 乡 村 ) 


Income Numeric 收入 

Married Yes, No 婚 否 

Children Numeric 子女 数 

Car Yes, No 是 否 有 汽车 
Save act Yes, No 是 否 有 储蓄 账户 
Current_act Yes, No 是 否 为 活期 账户 
Mortgage Yes, No 是 否 有 抵押 

Pep Yes, No 是 否 为 Pep 


5) 文件 名 : ColdType 


领域 .医疗 


数据 来 源 : 假想 数据 集 
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数据 挖掘 号 论 


描述 : 数据 集 共 有 8 个 属性 ， 前 7 个 属性 表达 了 病人 患 感冒 的 临床 症状 ， 分 别 为 
Increased -lym( 淋 巴 细 胞 是 否 升 高 )、Leukocytosis( 白 细胞 是 否 升 高 )、Fever( 是 否 发 烧 )、 
Acute-onset( 是 否 起 病 急 )、Sore-throat( 是 否 有 咽 痛 症状 )、Cooling-effect( 服 用 退烧 药 的 退 热 
效果 如 何 )、Group( 是 否 有 群体 发 病情 况 )。 第 8 个 属性 为 诊断 的 感冒 类 型 Cold-type。 表 B.5 
为 所 有 属性 值 的 说 明 。 


表 B.5 感冒 诊断 数据 集 属 性 说 明 


属性 名 称 混合 值 说 明 
Increased-lym Yes, No 淋巴 细胞 升 高 
Leukocytosis Yes, No 白细胞 升 高 
Fever Yes, No 发 烧 
Acute-onset Yes, No 起 病 急 
Sore-throat Yes, No 咽 痛 
Cooling-effect Good, Not good, Unknown 退 热 效 果 
Group Yes，No 群体 发 病 
Cold-type Viral，Bacterial 感冒 类 型 


6) 文件 名 : building 

领域 ， 商业 

数据 来 源 : MS Excel 

描述 办公 楼 数据 集 。 共 5 个 属性 ， 包 括 Floor Space( 底 层面 积 )、Number of Offices( 办 
公 室 个 数 )、Number of Entrances( 入 口 个 数 )、Building Age( 大 楼 使 用 年 数 ) 和 Value( 价 值 )。 
表 B.6 为 所 有 属性 值 的 说 明 。 


表 B.6 ”办公 楼 数据 集 属性 说 明 


底层 面积 


Number of Offices 办 公 室 个 数 
Number of Entrances Numeric | 入 口 个 数 
Building Age Numeric | 大 楼 使 用 年 数 


Value 价值 


7) 文件 名 : PlayBasketball 

领域 : 体育 

描述 : 打 篮 球 数据 集 。 共 5 个 属性 , 分 别 为 : Weather( 当 天 的 天 气 )、Temperature( 气 温 )、 
Courses( 当 天 上 完 的 课时 数 )、Partner( 是 否 有 球 友 )、Play( 是 否 去 打 篮 球 )。 表 B.7 为 所 有 属 
性 值 的 说 明 。 
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属性 名 称 说 阴 
Weather 当天 的 天 气 
Temperature 气温 
当天 上 完 的 课时 数 (范围 为 
Courses 
1 一 8) 
Partner 是 否 有 球 友 
Pla 是 否 去 打 篮 球 


8) 文件 名 : MarketBasket 

领域 ， 商业 

数据 来 源 : 假想 数据 集 

描述 : 网络 购物 交易 数据 集 。 共 5 个 属性 ， 分 别 是 Book( 图 书 )、Sneaker( 运 动 鞋 )、 
Earphone( 耳 机 )、DVD、Juice( 果 汁 )。 表 B.8 为 所 有 属性 值 的 说 明 。 分 别 是 


表 B.8 网 络 购物 交易 数据 集 属性 说 明 


Sneaker 


是 否 购 买 耳机 
是 否 购买 DVD 
是 否 购买 果汁 


9) 文件 名 : iris 

领域 : 生物 

数据 来 源 ，UCI 

描述 : iris 数据 集 包含 了 150 个 实例 (每 个 分 类 包含 50 个 实例 )， 有 Sepal Length( 葛 片 长 
度 )、Sepal Width( 莹 片 宽度 )、Petal Length( 花 瓣 长 度 )、Petal Width( 花 六 宽度 ) 和 Species-name 5 
个 属性 。 前 4 个 属性 为 数值 型 ，Species-name 属性 为 分 类 属性 ， 表 示 实 例 所 对 应 的 类 别 
Iris-Setosa( 山 碗 花 )、Jris-Versicolour( 变 色 萝 花 ) 和 Iris-Virginica( 弗 吉 尼 亚 州 高 花 )。 表 B.9 为 
所 有 属性 值 的 说 明 。 

iris 数据 集 有 两 个 版 本 ， 其 中 Species-name 属性 在 另 一 版 本 上 被 命名 为 Class。 


表 B.9 iris 数据 集 属性 说 明 


属性 名 称 
Sepal Length 
Sepal Width 
Petal Length 


Numeric 


Numeric 
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数据 挖掘 号 论 


Numeric 


Iris-Setosa, Iris-Versicolour, Iris-Virginica 


属性 名 称 
Petal Width 


说 明 


花瓣 宽度 
花 的 种 类 名 称 ( 山 恋 花 、 变 色 恋 花 、 弗 
吉 尼 亚 州 意 花 ) 


Species-name 


10) 文件 名 : TimeSeries-housePrice 

领域 ， 商业 

数据 来 源 : 假想 数据 集 

描述 : 某 城市 1993 一 2013 年 商品 房 平均 售 价 。 数据 集 共 5 个 属性 , 分 别 为 Year( 年 份 )、 
Cur-HousePrice( 当 年 的 商品 房 平均 售 价 )、Pre-1-HousePrice( 前 一 年 的 商品 房 平均 售 价 )、 
Pre-2-HousePrice( 前 第 二 年 的 商品 房 平均 售 价 ) 和 Pre-3-HousePrice( 前 第 三 年 的 商品 房 平 均 
售 价 )。 表 B.10 为 所 有 属性 值 的 说 明 。 


表 B.10 房屋 售 价 数据 集 属性 说 明 


属性 名 称 说 明 


Year Numeric 年 份 


Cur-HousePrice 当年 的 商品 房 平 均 售 价 


Pre-1-HousePrice 前 一 年 的 商品 房 平均 售 价 
Brei2. Housebiic 前 第 二 年 的 商品 房 平均 售 价 
Pre-3-HousePrice 前 第 三 年 的 商品 房 平 均 售 价 


11) 文件 名 : bmw-browsers 

领域 ， 商业 

数据 来 源 : 互联 网 

描述 : 数据 集 有 100 条 实例 数据 ， 数 据 集 共 8 个 属性 ， 分 别 为 Dealership、Showroom、 
CompnuterSearch、M5、3Series、Z4、Financing、Purchase。 每 个 属性 都 描述 客户 在 其 各 自 
的 BMW 体验 中 所 到 达 的 步骤 。Dealership 停车 场 ， 为 1 表示 咨询 ， 为 0 表示 未 咨询 ; 
Showroom 展厅 , 为 1 表示 停留 ， 为 0 表示 未 停留 ; ComputerSearch 计算 机 查询 ， 为 1 表示 
在 计算 机 上 查询 ， 为 0 表示 未 查询 ; M5、3Series、 Z4 分 别 表 示 是 否 到 达 了 5 系 、3 系 和 
Z4 区 域 停 留 ， 为 1 表示 去 了 ,为 0 表示 没 去 ; Financing 付款 ， 为 1 表示 到 达 付款 阶段 ， 为 
0 表示 未 到 达 此 阶段 ， Purchase 成 交 ， 为 1 表示 成 交 ， 为 0 表示 未 成 交 。 表 B.11 为 所 有 属 


性 值 的 说 明 。 
表 B.11 BMW 体验 数据 集 属性 说 明 
属性 名 说 明 
Dealership 咨询 /未 咨询 
Showroom 停留 /未 停留 
ComputerSearch 查询 /未 查询 
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属性 名 说 明 
M5 停留 /未 停留 
3Series 停留 /未 停留 
Z4 停留 /未 停留 
Financing 到 达 付 款 阶段 /未 到 达 付 款 阶段 
Purchase 成 交 /未 成 交 


12) 文件 名 : 票房 

领域 ， 商业 

数据 来 源 : 假想 数据 集 

属性 : 共 5 个 属性 ， 分 别 为 故事 好 、 名 导演 、 名 演员 、 宣 传 次 数 、 票 房 。 表 B.12 为 所 
有 属性 值 的 说 明 。 


属性 名 
故事 好 
名 导演 
名 演员 
宣传 次 数 


西 户 
凡 房 


表 B.12 电影 票房 数据 集 属性 说 明 

说 阴 
故事 是 否 好 
是 否 为 名 导演 
是 否 为 名 主演 
宣传 次 数 0~5 次 
票房 好 和 不 好 
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